k最近邻分类;matlab_贪心学院机器学习特训营第二课 K-NN最近邻笔记及作业-CSDN博客

本文链接：https://blog.csdn.net/weixin_42364681/article/details/112075630

本文详细介绍了K近邻（KNN）算法，包括其作为分类器和回归模型的使用。讲解了通过iris数据集进行KNN分类，K的选择对模型稳定性的影响，以及如何通过交叉验证选择最佳的K值。还讨论了特征缩放的重要性，如线性归一化和标准差标准化，并给出了二手车股价案例展示KNN在回归问题上的应用。最后，探讨了KNN的时间复杂度、处理高维数据的方法以及算法的其他延伸内容。

摘要由CSDN通过智能技术生成

李文哲老师详细的讲解了KNN模型，讲的非常详细，直播时因为内容多，额外占用了老师很多的时间，感谢李文哲老师辛苦的付出，感谢幕后做录制上传视频的老师和助教老师们。因为直播时内容太多，当时听的很多不明白，也不知问什么，这篇笔记是看回播写的。

老师介绍KNN是一个AI领域的 The "hello world" Algorithm ,类似于编程入门的经典hello world

KNN算法称：K-Nearest Neighbors

KNN算法即可以作为分类器也可以作为回归模型来使用，今天主要做分类器来演示

KNN是最容易理解的算法也是最容易实现的算法（自己写代码实现）

KNN使用最近的距离来为目标元素分类

KNN中K表示距离目标最近的K个元素，使用K个元素来投票确定K的分类（K为奇数，防止平手，当类别大于2时也会出现平手这种情况时无法避免平手，平手时可以随机返回或用特殊方法来处理避免平手）

K如何影响算法的行为？

通过经典的iris三分类示例讲解KNN的分类使用

# 读取相应的库
from sklearn import datasets #使用sklearn自带的数据
from sklearn.model_selection import train_test_split #把数据分成训练和测试数据集
from sklearn.neighbors import KNeighborsClassifier #从包中引入KNeighborsClassifier算法，包中会有其他的算法
import numpy as np

# 读取数据 X, y
iris = datasets.load_iris() #加载数据，可到UCI dataset上查看数据描述，这个数据集是一个三分类问题
X = iris.data #特征，矩阵类型：N*d N：samples 样本的个数 d：dimension 维度 
y = iris.target #label：标签 （这里是0，1，2），向量
print (X, y)

# 把数据分成训练数据和测试数据
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=2003)#指定随机种子，抽取时使用，保证每次一致

# 构建KNN模型， K值为3、 并做训练
clf = KNeighborsClassifier(n_neighbors=3) #这个值就是K
clf.fit(X_train, y_train)  #训练 （KNN训练时没有训练的过程，只做了数据的内存分配）

# 计算准确率
from sklearn.metrics import accuracy_score
correct = np.count_nonzero((clf.predict(X_test)==y_test)==True)#准确率的计算
print ("Accuracy is: %.3f" %(correct/len(X_test)))#准确率的计算
#print(accuracy_score(y_test, clf.predict(X_test))) #这里是使用sklearn自定义的函数计算准确率

参数有两大类

模型参数：通过训练数据来学习的（KNN里面没有模型参数）
超参数：不属于模型的参数，模型外面的参数，指导模型训练（类似开关模型按超参数指定的开关进行训练，用不同的开关学习的模型是不一样的，KNN的超参数就是K，调优是调试超参数）

欧式距离以及KNN实现

实现KNN算法需要考虑的几大问题
- 把一个物体表示成向量或矩阵（特征工程，使用特征描述物体，模型的第一步就是做特征工程，不同的业务需求使用或关注的特征不一样)
- 标记号每个物体的标签（i.e., offer/no offer，KNN需要提前标记标签，很多图像问题使用人工打标记）
- 计算两个物体之间的距离/相似度（最重要的问题，最简单的距离计算：欧式距离）
- 选择合适的K （KNN中最重要的话题，见后面）
从零开始自己写一个KNN算法

from sklearn import datasets
from collections import Counter  # 为了做投票
from sklearn.model_selection import train_test_split
import numpy as np

# 导入iris数据
iris = datasets.load_iris()
X = iris.data
y = iris.target
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=2003)

#欧式距离计算，两维
def euc_dis(instance1, instance2):
    """
    计算两个样本instance1和instance2之间的欧式距离
    instance1: 第一个样本， array型
    instance2: 第二个样本， array型
    """
    # TODO
    dist = np.sqrt(sum((instance1 - instance2)**2))
    return dist
    
#knn核心函数 
def knn_classify(X, y, testInstance, k):
    """
    给定一个测试数据testInstance, 通过KNN算法来预测它的标签。 
    X: 训练数据的特征
    y: 训练数据的标签
    testInstance: 测试数据，这里假定一个测试数据 array型
    k: 选择多少个neighbors? 
    """
    # TODO  返回testInstance的预测标签 = {0,1,2}
    #时间复杂度：O(N)  N:样本个数
    distances = [euc_dis(x, testInstance) for x in X]
    #时间复杂度：O(NlogN) 优化：使用 priority queue(优先级队列)->O(NlogK）
    kneighbors = np.argsort(distances)[:k]
    count = Counter(y[kneighbors])
    print(count)#展示投票结果
    return count.most_common()[0][0] #选取出现次数最大的那一项

# 预测结果。    
predictions = [knn_classify(X_train, y_train, data, 3) for data in X_test]
correct = np.count_nonzero((predictions==y_test)==True)
#accuracy_score(y_test, clf.predict(X_test))
print ("Accuracy is: %.3f" %(correct/len(X_test)))