文本挖掘之降维技术之特征选择

最新推荐文章于 2024-05-16 13:34:37 发布

红豆和绿豆

最新推荐文章于 2024-05-16 13:34:37 发布

阅读量7.2k

点赞数 6

分类专栏：文本挖掘文章标签：文本降维 MI互信息 IG信息增益卡方CHI TF-IDF与DF

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011955252/article/details/50764013

版权

文本挖掘专栏收录该内容

46 篇文章 3 订阅

订阅专栏

1、为什么要进行降维处理？

1.多重共线性--预测变量之间相互关联。多重共线性会导致解空间的不稳定，从而可能导致结果的不连贯。

2.高维空间本身具有稀疏性。一维正态分布有68%的值落于正负标准差之间，而在十维空间上只有0.02%。

3.过多的变量会妨碍查找规律的建立。

4.仅在变量层面上分析可能会忽略变量之间的潜在联系。例如几个预测变量可能落入仅反映数据某一方面特征的一个组内。

降维的目的：

1.减少预测变量的个数

2.确保这些变量是相互独立的

3.提供一个框架来解释结果

2.1、文档频率(Doeument Frequency DF)

词条的文档频率(DF)就是指在训练样本集中出现该词条的文档数。在进行特征抽取时,将DF高于某个特定阑值的词条提取出来,低于这个阈值的词条给予滤除。

DF评估函数的理论假设是稀有词条不含有有用信息,或含有的信息太少不足以对分类产生影响,而应当被去除。然而这种假设与一般的信息抽取观念有点冲突,因为在信息抽取中,有些稀有词条(如类别特征词)却恰恰比那些中频词更能反映类别的特征而不应该被滤除,因此单独使用DF评估函数进行特征选择未免太武断了。

2.2 、文档频率-逆向文档频率特征

2.3、互信息（MI）

或者使用这种公式计算

MI的缺点：在文本分类中，MI 特征的不足之处在于极少出现的特征词的 MI 值要大于正常出现特征词的 MI，这一点与文本特征分类恰恰相反。因此，基于 MI 特征的文本分类算法检测性能较差。

2.4、信息增益（IG）

或者用以下公式计算也可以

或者用下面的公式理解

2.5、期望交叉熵（ECE）

2.6、x^2统计法(CHI)

2.7、相关系数（CC）

2.8、文本证据权重

或者以下理解

通过查阅大量的文献,可以得出一些研究者对特征选择算法有如下的评价分类效果最好

的是文本证据权重算法,其次是信息增益、期望交叉熵、卡方,最后是互信息方法。

2.9、几率比（OR）

红豆和绿豆

关注

6
点赞
踩
10

收藏

觉得还不错? 一键收藏
2
评论
文本挖掘之降维技术之特征选择

1、为什么要进行降维处理？目前大多数使用向量空间模型对文本表示成为向量形式,而向量的属性则有可能涉及到中文中的所有词汇,其向量的维数是非常巨大的,同时考虑到一篇文章只不过包含极少数词语(比如,一篇文档只由儿百个词语组成),可知文档表示向量的稀疏性。这样高维的特征空间对文本分类的运算时间和空间复杂性是很不利的,因此在进行文本分类之前需要对文本进行特征降维,以最大程度的提高文本分类的精度,
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。