最近邻算法(KNN)

最新推荐文章于 2024-10-04 23:58:50 发布

Y_hero

最新推荐文章于 2024-10-04 23:58:50 发布

阅读量4.6k

点赞数 2

分类专栏：机器学习文章标签： KNN 算法机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Y_hero/article/details/88623313

版权

本文介绍了KNN（最近邻算法）在文本分类中的应用，作为最简单的机器学习算法之一，KNN基于实例学习，计算对象间的距离来决定分类。算法流程包括计算距离、排序、选择最近邻点并确定分类。虽然KNN具有简单、精度高、对异常值不敏感等优点，但也存在计算量大、可解释性差和样本数量影响分类等问题。文章还讨论了算法的改进方向。

摘要由CSDN通过智能技术生成

1.算法概述

目前，对于文本分类的研究已经取得了巨大的进展，常用的文本分类算法有最近邻算法(KNN)，支持向量机，人工神经网络，boosting，随机森林等。而KNN算法既是最简单的机器学习算法之一，也是基于实例的学习方法中最基本的，又是最好的文本分类算法之一。

基于实例的学习方法：

1.只是简单地把训练样例存储起来。等到输入一个新的查询实例时，才分析这个新实例和之前存储的实例之间的关系。**该算法几乎所有的计算都发生在分类时，**而且计算时一般考虑实例的所有属性。

2.基于实例的方法可以为不同的待分类查询实例建立不同的目标函数逼近。

下面通过一个简单的例子说明一下：如下图，绿色圆要被决定赋予哪个类，是红色三角形还是蓝色四方形？如果K=3，由于红色三角形所占比例为2/3，绿色圆将被赋予红色三角形那个类，如果K=5，由于蓝色四方形比例为3/5，因此绿色圆被赋予蓝色四方形类。

在这里插入图片描述
可见KNN算法的结果很大程度取决于K的选择。在KNN中，通过计算对象间距离来作为各个对象之间的非相似性指标，避免了对象之间的匹配问题，在这里距离一般使用欧氏距离或曼哈顿距离。

2.算法流程

接下来对KNN算法的思想总结一下：就是在训练集中数据和标签已知的情况下，输入测试数据，将测试数据的特征与训练集中对应的特征进行相互比较，找到训练集中与之最为相似的

最低0.47元/天解锁文章

关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。