简述KNN算法

最新推荐文章于 2024-06-19 14:40:49 发布

hello_Jeremy

最新推荐文章于 2024-06-19 14:40:49 发布

阅读量1k

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_40286580/article/details/99609443

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

KNN算法简介

定义

KNN：如果一个样本在特征空间中的k个最相似（即特征空间中最近邻）的样本中的大多数属于某一个类别，即该样本也属于这个类别。

KNN算法流程总结

1）计算已知类别数据集中的点与当前点的距离；
2）按距离递增次序排序；
3）选取与当前点距离最小的k个点；
4）统计前k个点所在的类别出现的频率；
5）返回前k个点出现频率最高的类别作为当前点的预测分类；

KNN算法API初步使用

x = [[0], [1], [2], [3]]
y = [0, 0, 1, 1]

from sklearn.neighbors import KNeighborsClassifier
# 实例化API
estimator = KNeighborsClassifier(n_neighbors=2)
# 使用fit方法进行训练
estimator.fit(x, y)
estimator.predict([[1]])

K值的选择

K值选择问题，李航博士的一书「统计学习方法」上所说：
1）选择较小的K值，就相当于用较小的领域中的训练实例进行预测，“学习”近似误差会减小，只有与输入实例较近或相似的训练实例才会对预测结果起作用，与此同时带来的问题是“学习”的估计误差会增大，换句话说，K值的减小就意味着整体模型变得复杂，容易发生过拟合；
2）选择较大的K值，就相当于用较大领域中的训练实例进行预测，其优点是可以减少学习的估计误差，但缺点是学习的近似误差会增大。这时候，与输入实例较远（不相似的）训练实例也会对预测器作用，使预测发生错误，且K值的增大就意味着整体的模型变得简单。
在实际应用中，K值一般取一个比较小的数值，例如采用交叉验证法（简单来说，就是把训练数据在分成两组:训练集和验证集）来选择最优的K值。
近似误差：

对现有训练集的训练误差，关注训练集；
如果近似误差过小可能出现过拟合的现象，对现有的训练集能有很好的预测，但是对未知的测试集样本会出现比较大的偏差；
模型本身不是最佳模型；

估计误差：

可以理解为对测试集的测试误差，关注测试集；
估计误差小说明对未知数据的预测能力好；
模型本身接近最佳模型；

K值过小：

容易受到异常点的影响
容易过拟合

K值过大：

受到样本均衡的问题
容易欠拟合

kd树

问题导入：实现k近邻算法时，主要考虑的问题是如何对训练数据进行快速k近邻搜索。
k近邻法最简单的实现是线性扫描（穷举搜索），即要计算输入实例与每一个训练实例的距离。计算并存储好以后，再查找K近邻。当训练集很大时，计算非常耗时。
kd树：为了避免每次都重新计算一遍距离，算法会把距离信息保存在一棵树里，这样在计算之前从树里查询距离信息，尽量避免重新计算。其基本原理是，如果A和B距离很远，B和C距离很近，那么A和C的距离也很远。有了这个信息，就可以在合适的时候跳过距离远的点。

案列分析

树的建立

给定一个二维空间数据集：T={(2,3),(5,4),(9,6),(4,7),(8,1),(7,2)}，构造一个平衡kd树。
思路引导
根结点对应包含数据集T的矩形，选择x(1)轴，6个数据点的x(1)坐标中位数是6，这里选最接近的(7,2)点，以平面x(1)=7将空间分为左、右两个子矩形（子结点）；接着左矩形以x(2)=4分为两个子矩形（左矩形中{(2,3),(5,4),(4,7)}点的x(2)坐标中位数正好为4），右矩形以x(2)=6分为两个子矩形，如此递归，最后得到如下图所示的特征空间划分和kd树。
在这里插入图片描述

最近领域的搜索

查找点(2,4.5)
在这里插入图片描述
1）、在(7,2)处测试到达(5,4)，在(5,4)处测试到达(4,7)【优先选择在本域搜索】，然后search_path中的结点为<(7,2),(5,4), (4,7)>，从search_path中取出(4,7)作为当前最佳结点nearest, dist为3.202；
2）、然后回溯至(5,4)，以(2,4.5)为圆心，以dist=3.202为半径画一个圆与超平面y=4相交，所以需要跳到(5,4)的左子空间去搜索。所以要将(2,3)加入到search_path中，现在search_path中的结点为<(7,2),(2, 3)>；另外，(5,4)与(2,4.5)的距离为3.04 < dist = 3.202，所以将(5,4)赋给nearest，并dist=3.04；
3）、回溯至(2,3)，(2,3)是叶子节点，直接平判断(2,3)是否离(2,4.5)更近，计算得到距离为1.5，所以nearest更新为(2,3)，dist更新为(1.5)；
4）、回溯至(7,2)，同理，以(2,4.5)为圆心，以dist=1.5为半径画一个圆并不和超平面x=7相交, 所以不用跳到结点(7,2)的右子空间去搜索；
至此，search_path为空，结束整个搜索，返回nearest(2,3)作为(2,4.5)的最近邻点，最近距离为1.5。