K近邻k-Nearest Neighbor（KNN）算法

最新推荐文章于 2024-09-20 23:32:26 发布

小清新嘻嘻无敌

最新推荐文章于 2024-09-20 23:32:26 发布

阅读量342

点赞数

分类专栏：机器学习文章标签：机器学习

机器学习专栏收录该内容

6 篇文章 1 订阅

订阅专栏

http://blog.csdn.net/helloworld6746/article/details/50817427

一、KNN算法概述

KNN作为一种有监督分类算法，是最简单的机器学习算法之一，顾名思义，其算法主体思想就是根据距离相近的邻居类别，来判定自己的所属类别。算法的前提是需要有一个已被标记类别的训练数据集，具体的计算步骤分为一下三步：

1、计算测试对象与训练集中所有对象的距离，可以是欧式距离、余弦距离等，比较常用的是较为简单的欧式距离；

2、找出上步计算的距离中最近的K个对象，作为测试对象的邻居；

3、找出K个对象中出现频率最高的对象，其所属的类别就是该测试对象所属的类别。

二、算法优缺点

1、优点

思想简单，易于理解，易于实现，无需估计参数，无需训练；

适合对稀有事物进行分类；

特别适合于多分类问题。

2、缺点

懒惰算法，进行分类时计算量大，要扫描全部训练样本计算距离，内存开销大，评分慢；

当样本不平衡时，如其中一个类别的样本较大，可能会导致对新样本计算近邻时，大容量样本占大多数，影响分类效果；

可解释性较差，无法给出决策树那样的规则。

三、注意问题

1、K值的设定

K值设置过小会降低分类精度；若设置过大，且测试样本属于训练集中包含数据较少的类，则会增加噪声，降低分类效果。

通常，K值的设定采用交叉检验的方式（以K=1为基准）

经验规则：K一般低于训练样本数的平方根。

2、优化问题

压缩训练样本；

确定最终的类别时，不是简单的采用投票法，而是进行加权投票，距离越近权重越高。

小清新嘻嘻无敌

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。