KNN最近邻算法（K-NearestNeighbor）

最新推荐文章于 2024-03-31 20:20:15 发布

iFun0

最新推荐文章于 2024-03-31 20:20:15 发布

阅读量1.6k

点赞数

分类专栏： Machine Learning 文章标签： KNN 最邻近算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Neil_Pan/article/details/54738520

版权

Machine Learning 专栏收录该内容

28 篇文章 2 订阅

订阅专栏

这里写图片描述

一般的分类模型建立的步骤，分为两种：

积极学习法 (决策树归纳)：先根据训练集构造出分类模型，根据分类模型对测试集分类。
消极学习法 (基于实例的学习法):推迟建模，当给定训练元组时，简单地存储训练数据 (或稍加处理) ，一直等到给定一个测试元组。

消极学习法在提供训练元组时只做少量工作，而在分类或预测时做更多的工作。KNN就是一种简单的消极学习分类方法，它开始并不建立模型，而只是对于给定的训练实例点和输入实例点，基于给定的邻居度量方式以及结合经验选取合适的k值，计算并且查找出给定输入实例点的ｋ个最近邻训练实例点，然后基于某种给定的策略，利用这ｋ个训练实例点的类来预测输入实例点的类别。

特例：当K=1时，即为最近邻算法（Nearest Neighbor）

基本原理：
（1）计算新样本与训练样本对象之间得距离度量值；
（2）找出与训练样本中距离最近得K个训练样本；
（3）根据投票法则，找到K个训练样本中占据数量最多得某一类别，并将该类别赋值给新样本，完成分类

适用性：KNN分类时，只与最相邻得K个训练样本得类别有关，不是靠判别类域的方法来确定所属类别，因此对于类域的交叉或重叠较多的待分样本集来说，kNN方法较其他方法更为适合。

常见问题

1、k值设定为多大？

k太小，分类结果易受噪声点影响；k太大，近邻中又可能包含太多的其它类别的点。（对距离加权，可以降低k值设定的影响）

k值通常是采用交叉检验来确定（以k=1为基准）

经验规则：k一般低于训练样本数的平方根

2、类别如何判定最合适？

投票法没有考虑近邻的距离的远近，距离更近的近邻也许更应该决定最终的分类，所以加权投票法更恰当一些。

3、如何选择合适的距离衡量？

高维度对距离衡量的影响：众所周知当变量数越多，欧式距离的区分能力就越差。

变量值域对距离的影响：值域越大的变量常常会在距离计算中占据主导作用，因此应先对变量进行标准化。

4、训练样本是否要一视同仁？

在训练集中，有些样本可能是更值得依赖的。

可以给不同的样本施加不同的权重，加强依赖样本的权重，降低不可信赖样本的影响。

5、性能问题？

kNN是一种懒惰算法，平时不好好学习，考试（对测试样本分类）时才临阵磨枪（临时去找k个近邻）。

懒惰的后果：构造模型很简单，但在对测试样本分类地的系统开销大，因为要扫描全部训练样本并计算距离。

已经有一些方法提高计算的效率，例如压缩训练样本量等。

6、能否大幅减少训练样本量，同时又保持分类精度？

浓缩技术(condensing)

编辑技术(editing)

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。