机器学习7——一文搞定k近邻算法(KNN)

KNN是什么

给定一个待预测样本,找到已知样本中离它最近的k个,根据这k个的标签情况对该待预测样本进行分类或者回归。

k的选择

较小的k容易过拟合,较大的k容易都到不相关的数据点的干扰。所以k的选择可以按照如下方法:

1.最朴素的想法:大的数据集就稍微选大的k,小数据集选较小的k;

2.交叉验证法:将数据集分成若干子集,在每个子集中进行KNN,用不同的k值进行测试,最后选择最合适的k;

3.可视化分析判断。

KNN算法的距离度量方式

欧氏距离

曼哈顿距离

切比雪夫距离

马氏距离

KNN的局限性 

KNN巨简单,但是局限性也很显著:

1.每个训练数据都保存,对内存要求大

2.每次都要计算待测数据和所有数据的距离,计算量巨大;

3.对类别不平衡的问题极为敏感;

4.对噪声数据点也很敏感;

5.特征空间高维情况下,数据点稀疏,以距离为指标的数据相关性判断并不一定准确。

  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值