KNN

KNN算法基于“近朱者赤,近墨者黑”的原理,通过计算待分类样本与训练数据的距离来确定其类别。然而,当数据量大时,KNN存在计算量大和存储空间需求高的问题。解决方法包括构建KD树以减少搜索计算量,以及应对类别不均衡问题。此外,K值的选择、距离计算方法和KNN在回归问题中的应用也是关键点。
摘要由CSDN通过智能技术生成

KNN

原理

“近朱者赤,近墨者黑”
来一个待分类物体,离这个物体最近的K个点大都属于哪一个类,这个样本就属于哪一个类。

步骤

1、计算距离:每个物体与待分类物体的距离;(距离是两个物体相似程度的反映)
2、距离排序:按从小到大的距离排序距离;
3、找出K个近邻:距离最近的前K个物体为近邻们;
4、分类:这K个物体中大多数都属于哪一类,该样本就属于哪一个类。

可以看到,当数据量非常大的时候KNN会有一个大缺点:

计算量庞大,需要大量的计算时间和存储空间(因为它要计算与所有物体的距离,要找最近的K个距离)

思考,怎么解决数据量非常大时候带来的大的存储空间以及计算时间问题?

构造Kd树,利用kd树可以省去对大部分数据点的搜索,从而减少搜索的计算量

KNN还有缺点:

当样本类别不均衡时,比如有些分类的样本少的可怜,有些多的爆炸,那么分类的准确率就会低很多。

思考,怎么解决类别不均衡问题?

K值如何选择

K太小,相当于邻居与待分类物体要非常相似(非常接近)才行,否则分类的准确度低。一个问题是ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值