文本分类之KNN

最新推荐文章于 2024-04-06 16:14:11 发布

dream2009gd

最新推荐文章于 2024-04-06 16:14:11 发布

阅读量1.6k

点赞数 1

分类专栏：文本分类文章标签： k-近邻 knn 文本分类特征提取

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dream2009gd/article/details/8506923

版权

文本分类专栏收录该内容

2 篇文章 0 订阅

订阅专栏

预处理：
解析文档，中科院分词ICTCLAS、过滤：去标点，去停用词HIT等

特征提取：
卡方、信息增益、交叉熵等,这里我们选用卡方(Chi-square test)
(Why? For this method is easy to implement and also very effective,It test the relevance between a term and a class,In other word ,it can test how clearly a term discriminates the class.)

实际上，对于一个特别的类，A+C和B+D是确定的，可以简化公式，去掉这两个因子。

计算训练集中特定类中所有词的卡方值，选取卡方值最大的N（maybe 1000?）个词，作为这个类的特征向量。

比如财经类：经济能源政策货币贸易投资回落市场 ...

向量表示文档：
根据选取的特征，把文档用向量表示，向量中的值为词对应的权重，权重可以采用tf-idf值，tf-idf值计算有很多公式，最简单的是直接相乘，我们可以采用以下公式计算：

w为词t在文档d中所占的权重，得到各个训练集文档和测试集文档的向量表示：

采用KNN进行文本分类：

基本步骤：计算测试文档和每个训练文档的相似度，选取相似度最高的K个文档，采用多数表决的方法，得到测试文档的类别。

相似度计算可以采用欧式距离并采用[0,1]规范化，或者曼哈顿距离，这里我们采用cos方法：

如何确定K的值？只能在试验中确定，选取产生最下误差率的K值！

KNN的效果在理想情况下一般仅次于SVM：

但KNN也有些缺点：

In fact, KNN has no train process, it’s not proper for real time application
Parameters are difficult to decide，maybe no better than simple Naive Bayesian Model
Sometimes, some text docs belong to several classes

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

dream2009gd CSDN认证博客专家 CSDN认证企业博客

码龄15年

66: 原创

24万+: 周排名

103万+: 总排名

16万+: 访问

: 等级

2388: 积分

27: 粉丝

39: 获赞

34: 评论

59: 收藏

私信

关注

热门文章

分类专栏

linux 25篇
文本分类 2篇
CPlusPlus 20篇
其他 9篇
autoqa 4篇
php 2篇
python 1篇
project 1篇
本体
java 7篇
算法 2篇
娱乐 2篇
工作 1篇
NLP 1篇

最新评论

菜鸟吐槽一下hao123
前端_Logic: 博主没遇到过浏览器劫持吗，主页总是被改成hao123 注册表修改，恶意代码注入。这就是个流氓网站啊....
分类中数据不平衡问题的解决经验
狂日一条街: 想问版主，这三种方法孰优孰略
分类中数据不平衡问题的解决经验
dream2009gd 回复 arthur503: 标红的是我最后采用的方法，因为语料本来就少，所以没用欠抽样，用svm最大熵之类的效果就不错了，代价敏感方法没研究，常用的一些boosting方法是代价敏感的
分类中数据不平衡问题的解决经验
arthur503: 请教两个问题： 1. 标红的1和4是楼主实验出来最有效的方法吗？ 2. 代价敏感方法能否举个例子说明？多谢！
分类中数据不平衡问题的解决经验
dream2009gd: 之前刚做了一个数据不平衡的分类问题，把一些经验方案贴出来，希望对其他人有那么一点点帮助，O(∩_∩)O~

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。