最近邻算法(KNN)

本文介绍了KNN(最近邻算法)在文本分类中的应用,作为最简单的机器学习算法之一,KNN基于实例学习,计算对象间的距离来决定分类。算法流程包括计算距离、排序、选择最近邻点并确定分类。虽然KNN具有简单、精度高、对异常值不敏感等优点,但也存在计算量大、可解释性差和样本数量影响分类等问题。文章还讨论了算法的改进方向。
摘要由CSDN通过智能技术生成

1.算法概述

 目前,对于文本分类的研究已经取得了巨大的进展,常用的文本分类算法有最近邻算法(KNN),支持向量机,人工神经网络,boosting,随机森林等。而KNN算法既是最简单的机器学习算法之一,也是基于实例的学习方法中最基本的,又是最好的文本分类算法之一。

基于实例的学习方法:

1.只是简单地把训练样例存储起来。等到输入一个新的查询实例时,才分析这个新实例和之前存储的实例之间的关系。**该算法几乎所有的计算都发生在分类时,**而且计算时一般考虑实例的所有属性。

2.基于实例的方法可以为不同的待分类查询实例建立不同的目标函数逼近。

 下面通过一个简单的例子说明一下:如下图,绿色圆要被决定赋予哪个类,是红色三角形还是蓝色四方形?如果K=3,由于红色三角形所占比例为2/3,绿色圆将被赋予红色三角形那个类,如果K=5,由于蓝色四方形比例为3/5,因此绿色圆被赋予蓝色四方形类。

在这里插入图片描述
可见KNN算法的结果很大程度取决于K的选择。在KNN中,通过计算对象间距离来作为各个对象之间的非相似性指标,避免了对象之间的匹配问题,在这里距离一般使用欧氏距离或曼哈顿距离。

2.算法流程

接下来对KNN算法的思想总结一下:就是在训练集中数据和标签已知的情况下,输入测试数据,将测试数据的特征与训练集中对应的特征进行相互比较,找到训练集中与之最为相似的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值