机器学习实战-----k-近邻算法

Cx330ld

已于 2023-05-24 10:15:42 修改

阅读量137

点赞数

分类专栏： python机器学习实例文章标签：机器学习近邻算法算法

于 2023-05-24 10:10:20 首次发布

本文链接：https://blog.csdn.net/cldnit/article/details/130841032

版权

python机器学习实例专栏收录该内容

4 篇文章 0 订阅

订阅专栏

k-近邻算法原理
K-近邻算法(K Nearest Neighbor)又叫KNN算法，指如果一个样本在特征空间中的k个最相似的样本中的大多数属于某一个类别，则该样本也属于这个类别。也就是对于新输入的实例，从数据集中找到于该实例最邻近的k个实例，那么这k个实例大多数属于某一个类，那么就把该实例放到该类中。

KNN算法不仅可以用于分类，还可以用于回归。通过找出一个样本的k个最近邻居，将这些邻居的属性的平均值赋给该样本，就可以得到该样本的属性。
例子：
如图1所示，有两类不同的样本数据，分别用蓝色的小正方形和红色的小三角形表示，而图正中间的那个绿色的圆所标示的数据则是待分类的数据。也就是说，现在，我们不知道中间那个绿色的数据是从属于哪一类（蓝色小正方形or红色小三角形），下面，我们就要解决这个问题：给这个绿色的圆分类。
我们常说，物以类聚，人以群分，判别一个人是一个什么样品质特征的人，常常可以从他/她身边的朋友入手，所谓观其友，而识其人。我们不是要判别图1中那个绿色的圆是属于哪一类数据么，好说，从它的邻居下手。但一次性看多少个邻居呢？从图1中，你还能看到：
如果K=3，绿色圆点的最近的3个邻居是2个红色小三角形和1个蓝色小正方形，少数从属于多数，基于统计的方法，判定绿色的这个待分类点属于红色的三角形一类。
如果K=5，绿色圆点的最近的5个邻居是2个红色三角形和3个蓝色的正方形，还是少数从属于多数，基于统计的方法，判定绿色的这个待分类点属于蓝色的正方形一类。
于此我们看到，当无法判定当前待分类点是从属于已知分类中的哪一类时，我们可以依据统计学的理论看它所处的位置特征，衡量它周围邻居的权重，而把它归为(或分配)到权重更大的那一类。这就是K近邻算法的核心思想。
在这里插入图片描述
k值的选取
K 值的选择会对算法的结果产生重大影响。K值较小意味着只有与输入实例较近的训练实例才会对预测结果起作用，但容易发生过拟合；如果 K 值较大，优点是可以减少学习的估计误差，但缺点是学习的近似误差增大，这时与输入实例较远的训练实例也会对预测起作用，使预测发生错误。在实际应用中，K 值一般选择一个较小的数值，通常采用交叉验证的方法来选择最优的 K 值。随着训练实例数目趋向于无穷和 K=1 时，误差率不会超过贝叶斯误差率的2倍，如果K也趋向于无穷，则误差率趋向于贝叶斯误差率。
分类决策
该算法中的分类决策规则往往是多数表决，即由输入实例的 K 个最临近的训练实例中的多数类决定输入实例的类别。
距离度量
计算距离一般使用欧氏距离公式：
在这里插入图片描述
k-近邻算法优点
精度高、对异常值不敏感、无数据输入假定
k-近邻算法缺点
计算复杂度高、空间复杂度高、无法给出数据的内在含义
k-近邻算法使用数据范围：
数据型和标称型