【机器学习】K-近邻算法

最新推荐文章于 2024-04-01 20:48:50 发布

张小猪的家

最新推荐文章于 2024-04-01 20:48:50 发布

阅读量903

点赞数 2

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_39574469/article/details/119654413

版权

机器学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

文章目录

- K-近邻算法

K-近邻算法

1.K-近邻算法简介

1.1 定义

如果⼀个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的⼤多数属于某⼀个类别，则该样本也属于这个类别。

1.2 KNN算法流程

1）计算已知类别数据集中的点与当前点之间的距离

2）按距离递增次序排序

3）选取与当前点距离最⼩的k个点

4）统计前k个点所在的类别出现的频率

5）返回前k个点出现频率最⾼的类别作为当前点的预测分类

常⻅距离公式

欧式距离(Euclidean Distance)：通过距离平⽅值进⾏计算

曼哈顿距离(Manhattan Distance)：通过距离的绝对值进⾏计算

切⽐雪夫距离 (Chebyshev Distance)：维度的最⼤值进⾏计算

闵可夫斯基距离(Minkowski Distance)：当p=1时，就是曼哈顿距离；当p=2时，就是欧⽒距离；当p→∞时，就是切⽐雪夫距离。

2.K-近邻算法优缺点汇总

优点：

简单有效
重新训练的代价低
适合类域交叉样本
- KNN⽅法主要靠周围有限的邻近的样本,⽽不是靠判别类域的⽅法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，KNN⽅法较其他⽅法更为适合。
适合⼤样本⾃动分类
- 该算法⽐较适⽤于样本容量⽐较⼤的类域的⾃动分类，⽽那些样本容量较⼩的类域采⽤这种算法⽐较容易产⽣误分。

缺点：

惰性学习
- KNN算法是懒散学习⽅法（lazy learning,基本上不学习），⼀些积极学习的算法要快很多
类别评分不是规格化
- 不像⼀些通过概率评分的分类
输出可解释性不强
- 例如决策树的输出可解释性就较强
对不均衡的样本不擅⻓
- 当样本不平衡时，如⼀个类的样本容量很⼤，⽽其他类样本容量很⼩时，有可能导致当输⼊⼀个新样本时，该样本的K个邻居中⼤容量类的样本占多数。该算法只计算“最近的”邻居样本，某⼀类的样本数量很⼤，那么或者这类样本并不接近⽬标样本，或者这类样本很靠近⽬标样本。⽆论怎样，数量并不能影响运⾏结果。可以采⽤权值的⽅法（和该样本距离⼩的邻居权值⼤）来改进。
计算量较⼤
⽬前常⽤的解决⽅法是事先对已知样本点进⾏剪辑，事先去除对分类作⽤不⼤的样本。

3.kd树

根据KNN每次需要预测⼀个点时，我们都需要计算训练数据集⾥每个点到这个点的距离，然后选出距离最近的k个点进⾏投票。当数据集很⼤时，这个计算成本⾮常⾼。
为了避免每次都重新计算⼀遍距离，算法会把距离信息保存在⼀棵树⾥，这样在计算之前从树⾥查询距离信息，尽量避免重新计算。其基本原理是，如果A和B距离很远，B和C距离很近，那么A和C的距离也很远。有了这个信息，就可以在合适的时候跳过距离远的点。