文本建模常用的预处理方法——特征选择方法（CHI和IG）

最新推荐文章于 2025-03-28 23:02:52 发布

mmc2015

最新推荐文章于 2025-03-28 23:02:52 发布

阅读量7.2k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：机器学习——文本挖掘文章标签：机器学习文本建模特征预处理卡方检测信息增益

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mmc2015/article/details/46771791

本文探讨了TF-IDF在特征选择的局限性，并介绍了卡方检验（CHI）和信息增益（IG）作为文本分类中更有效的特征选择方法。信息增益衡量全局特征贡献，卡方检验关注词与类别的相关性，但可能对低频词过于偏袒。实现方法包括统计词频和文档频率，计算信息熵和卡方值，以选择最具区分度的特征。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本篇关于TF-IDF/CHI/IG。

参考：

http://blog.sina.com.cn/s/blog_6622f5c30101datu.html

http://lovejuan1314.iteye.com/blog/651460

1）TF-IDF在特征选择时的误区。

TF-IDF用于向量空间模型，进行文档相似度计算是相当有效的。但在文本分类中单纯使用TF-IDF来判断一个特征是否有区分度是不够的。

===》它仅仅综合考虑了该词在文档中的重要程度和文档区分度。

===》它没有考虑特征词在类间的分布。特征选择所选择的特征应该在某类出现多，而其它类出现少，即考察各类的文档频率的差异。如果一个特征词，在各个类间分布比较均匀，这样的词对分类基本没有贡献；但是如果一个特征词比较集中的分布在某个类中，而在其它类中几乎不出现，这样的词却能够很好代表这个类的特征，而TF-IDF不能区分这两种情况。

===》它没有考虑特征词在类内部文档中的分布情况。在类内部的文档中，如果特征词均匀分布在其中，则这个特征词能够很好的代表这个类的特征，如果只在几篇文档中出现，而在此类的其它文档中不出现，显然这样的特征词不能够代表这个类的特征。

2）特征选择方法综述。

文本中能观察到的量其实只有两个：词频和文档频率，所有的方法一律以这两个量为计算基础。

针对英文纯文本的实验结果表明：作为特征选择方法时，卡方检验和信息增益的效果最佳（相同的分类算法，使用不同的特征选择算法来得到比较结果）；文档频率方法（直接依据文档频率大小排序的方法）的性能同前两者大体相当，术语强度方法性能一般；互信息方法的性能最差。

3&#

最低0.47元/天解锁文章

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。