K-近邻分类算法KNN

最新推荐文章于 2022-08-18 20:09:41 发布

oucpowerman

最新推荐文章于 2022-08-18 20:09:41 发布

阅读量3.3k

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/oucpowerman/article/details/49705723

版权

本文介绍了K-近邻分类算法KNN的步骤，包括计算距离、K值选择、样本特征标准化，以及通过威斯康星乳腺癌诊断案例展示了KNN的实际应用。K值的选择对模型性能有很大影响，过大可能导致模型过于依赖多数类，过小则易受噪声干扰。特征标准化确保了距离计算的公平性。

摘要由CSDN通过智能技术生成

一、KNN算法的步骤

计算已知类别数据集中每个点与当前点的距离；
选取与当前点距离最小的K个点；
统计前K个点中每个类别的样本出现的频率；
返回前K个点出现频率最高的类别作为当前点的预测分类。

二、计算距离

传统上，KNN算法采用的是欧式距离，即：假设item的特征向量为（x1,x2,......,xn），则欧式距离=2个item在特征空间上的直线距离。如果item是文本，它的特征是文本中的多个word的话，采用余弦距离较好。

三、K值的选取

对于KNN算法来说，选择一个合适的K值至关重要，它决定了模型对未来数据的分类性能的好坏。

当K值过大时例如极端情况下取K=N（N=训练样本数），由于KNN采用的是投票机制，所以最终训练出来的模型总会选择得票数最多的类作为分类结果。此时会出现这样的问题：

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

oucpowerman CSDN认证博客专家 CSDN认证企业博客

码龄9年

9: 原创

111万+: 周排名

149万+: 总排名

10万+: 访问

: 等级

784: 积分

30: 粉丝

41: 获赞

18: 评论

130: 收藏

私信

关注

热门文章

分类专栏

最新评论

Logistic回归分析时几个需要注意的问题
野柚子__: 同问。感觉没有办法处理，因为原始数据就是这样？或者试试把不同的组合并？
Logistic回归分析时几个需要注意的问题
m0_55294147: 感谢！如果出现了“空单元格”或“完全分离”的情况，应该如何处理该变量呢？前提是样本量已经无法继续扩大了，谢谢！！！
矩阵分解模型（1）：ALS学习算法
qq_42798324 回复 jiangnangogogo: 我看了代码，个人觉得是只有已经评分过的商品才有损失函数。
矩阵分解模型（1）：ALS学习算法
ET_Wangxing: 公式这边显示不了楼主~
矩阵分解模型（1）：ALS学习算法
jiangnangogogo: 楼主你好，由于原始的评分矩阵里面并不是所有的值都存在，那么在后面进行als的时候，由于要进行评分值减去ui和vj的乘积这个操作，请问对于缺失的评分值怎么处理呢？填0 吗？还是说直接不参与运算？看到下面有一条评论问了相同的问题，然后有人答复说赋予随机数，请问这里可以只选取存在的aij进行计算吗？当然这样操作的话可能会导致有的ui 和 vj估计不出来

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。