数据挖掘文本分类（七）特征提取

最新推荐文章于 2021-05-14 15:24:10 发布

Carry_yang

最新推荐文章于 2021-05-14 15:24:10 发布

阅读量6.5k

点赞数 1

分类专栏：大数据数据挖掘文本分类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yangshaoby/article/details/42121665

版权

博客介绍了在文本分类中特征提取的重要性，重点关注了TF-IDF和卡方检验两种方法。TF-IDF结合词频和逆向文件频率评估词的重要性，但可能忽视某些特征词在分类间的分布差异。卡方检验则用于衡量特征词在类别间的分布差异，帮助选择更有区分度的特征。

摘要由CSDN通过智能技术生成

上一篇我们做完了词频统计，下面就该提取文本特征了。其实词的频率就是文本最重要的特征了，但是我们如果只靠词的频率去判断文本的分类的话，显然正确率是很低的。

当然，文本的特征提取有很多办法了，我上这门课程老师着重介绍的是TF-IDF和卡方校验两种。

我们先来看IF-IDF的计算方法：

词频（term frequency，TF）指的是某一个给定的词语在该文件中出现的频率。

逆向文件频率（inverse document frequency，IDF）。某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到。

IDF是一个词语普遍重要性的度量。

TF-IDF值即是TF值与IDF值之积。

TF-IDF综合表征了该词在文档中的重要程度和文档区分度。但在文本分类中单纯使用TF-IDF来判断一个特征是否有区分度是不够的。它没有考虑特征词在分类间的分布。如果一个特征词，在各个类间分布比较均匀，这样的词对分类基本没有贡献；但是如果一个特征词比较集中的分布在某个类中，而在其它类中几乎不出现，这样的词却能够很好代表这个类的特征，而TF-IDF不能区分这两种情况。没有考虑特征词在类内部文档中的分布情况。在类内部的文档中，如果特征词均匀分布在其中，则这个特征词能够很好的代表这个类的特征，如果只在几篇文档中出现，而在此类的其它文档中不出现，显然这样的特征词不能够代表这个类的特征。<

最低0.47元/天解锁文章

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。