KNN(K-Nearest Neighbor)简介

最新推荐文章于 2024-09-08 19:50:08 发布

弱鸡萌新

最新推荐文章于 2024-09-08 19:50:08 发布

阅读量2.4k

点赞数

分类专栏：机器学习 KNN 文章标签：机器学习

本文链接：https://blog.csdn.net/lihao19990930/article/details/115678336

版权

机器学习同时被 2 个专栏收录

4 篇文章 1 订阅

订阅专栏

KNN

1 篇文章 0 订阅

订阅专栏

文章目录

KNN

KNN是一种有监督的学习，是一种常用于分类的算法，是有成熟理论支撑的、较为简单的经典机器学习算法之一。

该方法的基本思路是：如果一个待分类样本在特征空间中的K个最相似（即特征空间中K近邻）的样本中的大多数属于某一个类别，则该样本也属于这个类别，即近朱者赤近墨者黑。
对当前待分类样本的分类，需要大量已知分类的样本的支持，因此KNN是一种有监督学习算法。

举个例子:

蓝色方格 和 红色三角 是已知分类结果的样本，求 绿色圆圈属于哪一类？
在这里插入图片描述 当K=3时，我们发现近邻中有两个红色三角，一个蓝色三角，所以，绿色圆圈属于红色三角类型。
当K=5时，我们发现近邻中有两个红色三角，三个蓝色三角，所以，绿色圆圈属于蓝色方块类型。

由此我们可知，k值的选取会影响我们分类的结果，因此，k值的选取很重要。

数据集

即必须存在一个样本数据集，也称作训练集，样本数据集中每个样本是有标签的，即我们知道样本数据集中每一个样本的分类。
即已标注数据---------黄金数据。

样本的向量表示

即不管是当前已知的样本数据集，还是将来可能出现的待分类样本，都必须可以用向量的形式加以表征。向量的每一个维度，刻画样本的一个特征，必须是量化的，可比较的。
即每一个样本应该用一个n维向量表示，每一个维度刻画一个特征。

样本间距离的计算方法

欧氏距离、余弦距离、海明距离、曼哈顿距离等等。

K值的选取

K值的选取会影响待分类样本的分类结果，会影响算法的偏差与方差。

偏差：模型输出值与真实值之间的差异。偏差越高，则数据越容易欠拟合(Underfitting)，未能充分利用数据中的有效信息。
方差：对数据微小改变的敏感程度。假如有一组同一类的样本，并且这些样本的特征之间只有微小差异，用训练好的模型进行预测并求得方差。理想情况下，我们应该得到的方差为0，因为我们预料我们的模型能很好处理这些微小的变化；但现实中存在很多噪声(即存在不同类别的样本，其特征向量差异很小)，即使是特征差异很小的同一类样本也可能达到不同类别的结果。而方差实际上就是衡量对噪声的敏感程度。方差越高，越容易过拟合(Overfiiting)，对噪声越敏感。
K值较小：就相当于用较小的领域中的训练实例进行预测，“学习”近似误差会减小， K值的减小就意味着整体模型变得复杂，容易发生过拟合，即增大了方差。
K值较大：就相当于用较大领域中的训练实例进行预测，其优点是可以减少学习的估计误差，但缺点是学习的近似误差会增大。这时候，与输入实例较远（不相似的）训练实例也会对预测器作用，使预测发生错误，且K值的增大就意味着整体的模型变得简单。k很大，那么可以减少干扰数据的影响，但是此时就导致了系统性偏差（K值太小会造成过度拟合），比如如果取k为总的训练数据数，那么每次投票肯定都是训练数据中多的类别胜利。显然训练数据的系统性偏差会影响结果。

KNN的优点

简单，易于理解，易于实现，无需参数估计，无需训练
对异常值不敏感（个别噪音数据对结果的影响不是很大）
适合对稀有事件进行分类
适合于多分类问题

KNN的缺点

计算量大，内存开销大。目前常用的解决方法是事先对已知样本点进行剪辑或综合。此外采用特殊数据结构提升性能，如kd-tree：先按照搜索最近邻的方式构建；然后构建长度为K的有界优先队列，保存和不断的更新当前搜索过程中与待分类样本点距离最近的K个样本点的距离。
可解释性差。无法告诉你哪个样本更重要
K值的选择。当样本不平衡时会导致错误
KNN是一种消极学习方法、懒惰算法