[机器学习与scikit-learn-18]：算法-K近邻算法KNN的原理与代码实例

文火冰糖的硅基工坊

已于 2022-03-13 09:14:23 修改

阅读量779

点赞数 2

分类专栏：机器学习与scikit-learn 文章标签：机器学习算法 scikit-learn K近邻 KNN

于 2022-03-13 09:12:37 首次发布

本文链接：https://blog.csdn.net/HiWangWenBing/article/details/123410611

版权

机器学习与scikit-learn 专栏收录该内容

58 篇文章 41 订阅

订阅专栏

作者主页(文火冰糖的硅基工坊)：文火冰糖（王文兵）的博客_文火冰糖的硅基工坊_CSDN博客

本文网址：[机器学习与scikit-learn-18]：算法-K近邻算法KNN的原理与代码实例_文火冰糖（王文兵）的博客-CSDN博客

第2章 scikit-learn对K近邻算法的支持

2.1 scikit-learnK近邻库概述

第1章 K近邻算法概述

1.1 什么是K近邻

K近邻就是离某个n维向量点的距离最近的K个邻居。

K近邻(k-Nearest Neighbor，KNN)分类算法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。

该方法的思路是：在特征空间中，如果一个样本附近的k个最近(即特征空间中最邻近)样本的大多数属于某一个类别，则该样本也属于这个类别。即用周围的环境的类型来判断该向量点的分类类型。

用官方的话来说，所谓K近邻算法，即是给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的K个实例（也就是上面所说的K个邻居），这K个实例的多数属于某个类，就把该输入实例分类到这个类中。

1.2 K近邻的本质

分类模型的基本假设是：

相同类型的向量点在空间中的位置分布是相邻的，不同向量点之间有清晰的边界，我们可以通过某种数学模型，可以把这些不同类型的点可以区分开。这个数学模型可以是线性的直线、折现，也可以是非线性的二次或高次曲线，也可以是圆。

K近邻的本质是：以待判决的位置类别的点为中心画圆，该圆能够包含K个已知标签样本点，已知样本点数量最大的类别来作为未知点的类别。

1.3 K近邻的优缺点

优点：简单，只要计算出所有已知点与待判断点的距离，然后进行排序，选择距离最小的K个点，然后对K个已知类别的点进行统计即可。

缺点：判断的准确性与待测向量点的位置强相关，在多个分类的边界处，出错的概率很大，而在分类点的中心位置处，准确率比较高。如下图中红色圈中的点。

1.4 算法的基本过程

如图所示，有两类不同的样本数据，分别用蓝色的小正方形和红色的小三角形表示，而图正中间的那个绿色的圆所标示的数据则是待分类的数据。也就是说，现在，我们不知道中间那个绿色的数据是从属于哪一类（蓝色小正方形or红色小三角形）。

下面，我们就要解决这个问题：给这个绿色的圆分类。

我们常说，物以类聚，人以群分，判别一个人是一个什么样品质特征的人，常常可以从他/她身边的朋友入手，所谓观其友，而识其人。我们不是要判别图中那个绿色的圆是属于哪一类数据么，好说，从它的身边的邻居和朋友下手。

但一次性看多少个邻居呢？这是需要预先设置的。从图中，你还能看到：

（1）如果K=3

计算所有点与绿色圆点的距离，并排序
选择或统计绿色圆点的最近的3个邻居，统计总数K=3
统计：红色小三角形的个数=2
统计：蓝色小正方形的个数=1
少数服从多数：红色较多，判决绿色圆点属于红色一类
计算可能性：2/3 = 66%为红色的可能性

（2）如果K=5，绿色圆点的最近的5个邻居是2个红色三角形和3个蓝色的正方形，还是少数从属于多数，基于统计的方法，判定绿色的这个待分类点属于蓝色的正方形一类。

计算所有点与绿色圆点的距离，并排序
选择或统计绿色圆点的最近的5个邻居，统计总数K=5
统计：红色小三角形的个数=2
统计：蓝色小正方形的个数=3
少数服从多数：蓝色较多，判决绿色圆点属于蓝色一类
计算可能性：3/5 = 60%为蓝色的可能性

可以看出，K值不同，判断的结果不同.

在实际应用中，通常采用交叉验证的方法从连续n个不同的K值的预测进行综合比较，选择最优的 K 值。随着训练实例数目趋向于无穷和 K=1 时，误差率不会超过贝叶斯误差率的2倍，如果K也趋向于无穷，则误差率趋向于贝叶斯误差率。即误差在[贝叶斯误差，二倍贝叶斯误差]之间。

因此，其性能不如贝叶斯算法。

第2章 scikit-learn对K近邻算法的支持

2.1 scikit-learnK近邻库概述

近邻法是一个算法大类，而不是单个算法。

在scikit-learn 中，与近邻法这一大类相关的类库都在sklearn.neighbors包之中。

KNN分类树的类是KNeighborsClassifier，仅仅限制个数
KNN回归树的类是KNeighborsRegressor，仅仅限制个数
限定半径最近邻分类树的类RadiusNeighborsClassifier，仅仅限定半径
限定半径最近邻回归树的类RadiusNeighborsRegressor，仅仅限定半径
以及最近质心分类算法NearestCentroid。

在这些算法中，KNN分类和回归的类参数完全一样。

限定半径最近邻法分类和回归的类的主要参数也和KNN基本一样。

比较特别是的最近质心分类算法，由于它是直接选择最近质心来分类，所以仅有两个参数，距离度量和特征选择距离阈值，比较简单。

另外几个在sklearn.neighbors包中但不是做分类回归预测的类也值得关注。kneighbors_graph类返回用KNN时和每个样本最近的K个训练集样本的位置。radius_neighbors_graph返回用限定半径最近邻法时和每个样本在限定半径内的训练集样本的位置。

NearestNeighbors是个大杂烩，它即可以返回用KNN时和每个样本最近的K个训练集样本的位置，也可以返回用限定半径最近邻法时和每个样本最近的训练集样本的位置，常常用在聚类模型中。