python实现KNN算法

最新推荐文章于 2021-04-22 16:54:41 发布

GAL.

最新推荐文章于 2021-04-22 16:54:41 发布

阅读量973

点赞数

本文链接：https://blog.csdn.net/qq_43934014/article/details/102545854

版权

本文详细介绍了如何使用Python从头实现KNN算法，包括算法设计、自定义KNN分类器的步骤，以及测试用例的设计与调试。在实现过程中，利用numpy计算距离并进行排序，通过多数表决法确定分类。同时，文章还讨论了测试过程中遇到的问题和解决方案，强调了Python库的便利性和测试用例的重要性。

摘要由CSDN通过智能技术生成

用python实现KNN算法

算法设计
在使用自带的sklearn实现knn算法时，需要先引入sklearn包中的类，继而再取得knn分类器，使用内置函数调整knn的要素（邻居个数，分类决策规则），，使用fit（）对训练集进行训练，调用knn.predict()去预测新输入的类别，调用knn.score()计算预测的准确率。
在使用原生python实现KNN算法时，首先要解决的问题就是计算输入x与训练集各点的距离distance，根据距离排序，取出距离最小的k个点，其次要对新的数据点做出预测，此时类比knn分类器，就需要我们自己定义一个分类器，来对数据点进行分类，x归为多数类。在计算distance时，选择numpy数组可以让程序运算更简洁。
自定义KNN分类器：定义函数KNNClassify（），其中包含的参数应包含newInput:新输入的待分类数据（x_test），dataset:输入的训练数据集（x_train）,lables:输入训练集对应的类别标签（y_train）,k:近邻数，weight：决策规则。第一步要做的内容时计算分类数据与训练集各数据点的欧式距离。使用numpy的title函数将newInput在列方向上重复1次，行方向重复numSamples次并减去输入的训练数据集，由此求出距离差值，再将该值平方后累加求和。 distance = (squaredist.sum(axis=1)) ** 0.5 其中 axis=1表示按行累加。第二步就是将距离按升序排序，并取距离最近的k个近邻点。使用argsort()方法实现。定义一个空字典，用来存放k个近邻的分类计数。在计数方法上，选择多数表决法或加权表决法。使用for循环求出第i个近邻点在distance数组中的索引，对应的分类。对k个近邻点的分类按降序排序，返回票数最多的分类结果。根据不同的计数法输出对应分类结果。
接下来建立训练集、测试集。将下载好的数据集新建文件，通过pandas的read_csv（）来读取数据文件。使用pandas的head( m )函数来读取前m条数据，如果没有参数m，默认读取前五条数据。iloc函数，基于索引位来选取数据集，这里是前闭后开集合。np.random.permutation(len(iris_x))将鸢尾花的长度数据打乱。选取鸢尾花的数据集，测试集，将dataframe格式的数据转换为numpy array格式，便于调用函数计算，将labels的形状设置为(130,)

源代码：