数据挖掘-文本分类：特征选择方法总结

最新推荐文章于 2020-11-26 05:51:24 发布

shunqs

最新推荐文章于 2020-11-26 05:51:24 发布

阅读量2.3k

点赞数 1

分类专栏：数据挖掘篇算法篇文章标签：特征选择文本分类文档词频互信息信息增益

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shunqs/article/details/84619258

版权

本文主要介绍了文本分类中的特征选择方法，包括文档频率、互信息、信息增益和开方拟和检验方法。特征选择有助于降低文本表示维度，特征词权重如TF-IDF用于衡量重要性。互信息和信息增益是常用的相关性度量，但各有局限性。

摘要由CSDN通过智能技术生成

一、概念

二、特征选择方法总结

一、概念

特征词选择和特征词权重

1.特征词选择：特征词选择是为了降低文本表示的维度，而特征词权重是为了表示文本表示中每一个特征项的重要程度。

常见的且基础的文本特征选择的算法有基于文档频率(DocumentFrequency)、信息增益(InformationGain,IG)、开方拟和检验方法(CHI统计)、互信息(mutualInformation)、潜在语义分析LSA、期望值交叉算熵、文本证据权、termstrength(TS)、GSSCoefficient、oddsratio。

2.特征词权重：每一个特征项的重要程度

常见的算法：TF-IDF，TF的改进，信息熵的引用

3.区别：特征词选择是为了降低文本表示的维度，而特征词权重是为了表示文本表示中每一个特征项的重要程度。

二、特征选择方法总结

1.文档频率

词条的文档频率（documen

最低0.47元/天解锁文章

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。