写给自己——信息增益

最新推荐文章于 2024-07-20 21:00:29 发布

mmc2015

最新推荐文章于 2024-07-20 21:00:29 发布

阅读量850

点赞数 1

分类专栏：机器学习——文本挖掘文章标签：机器学习信息增益文本分类特征选择

本文链接：https://blog.csdn.net/mmc2015/article/details/48415883

版权

机器学习——文本挖掘专栏收录该内容

30 篇文章 1 订阅

订阅专栏

所谓信息量，就是熵。

对文本分类而言，分类C（看做是一个变量）可能的取值有n种（最常见的是二元分类），每一种取到的概率为Pi，那么分类C的熵就定义为H(C)=-sigma(i:1-n) { P(Ci)*log[P(Ci)] }。

所谓信息增益，系统有某个特征和没某个特征时信息量发生的变化。信息量变化越大，该特征越重要。

对文本分类而言，特征T（指每一个词汇）给分类C带来的信息增益为IG(T)=H(C)-H(C|T)。 H(C|T)包含两种情况：一种是词汇T出现，标记为t，一种是词汇T不出现，标记为t'。所以 H(C|T)=P(t)H(C|t)+P(t')H(C|t')=P(t)*-sigma(i:1-n) { P(Ci|t)*log[P(Ci|t)] }+P(t')*-sigma(i:1-n) { P(Ci|t')*log[P(Ci|t')] }。

我们需要对语料库中出现的所有的词汇计算IG(t)，筛选出topn大的词汇作为特征集合。

信息增益最大的问题在于它只能考察特征对整个系统的贡献，而不能具体到某个类别上，这就使得它只适合用来做所谓“全局”的特征选择（指所有的类都使用相同的特征集合），而无法做“本地”的特征选择（所谓“本地”，是指每个类别有自己的特征集合，因为有的词，对这个类别很有区分度，对另一个类别则无足轻重）。

最重要的来了，那些H、P如何计算？以区分性别的二元分类为例：

1）从文档频率DF角度出发：

H(C)=-sigma(i:1-n) { P(Ci)*log[P(Ci)] }中，P(Ci)=男性文件数/总文件数。

P(t)*-sigma(i:1-n) { P(Ci|t)*log[P(Ci|t)] }+P(t')*-sigma(i:1-n) { P(Ci|t')*log[P(Ci|t')] }中，对每一个词汇t，P(t)=包含词汇t的文件数/总文件数，P(Ci|t)=包含词汇t并且是男性文件的文件数/包含词汇t的文件数。

2）从TF-IDF角度出发：

。。。。。。

mmc2015

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
写给自己——信息增益

所谓信息量，就是熵。对文本分类而言，分类C（看做是一个变量）可能的取值有n种（最常见的是二元分类），每一种取到的概率为Pi，那么分类C的熵就定义为H(C)=-sigma(i:1-n) { P(Ci)*log[P(Ci)] }。所谓信息增益，系统有某个特征和没某个特征时信息量发生的变化。信息量变化越大，该特征越重要。对文本分类而言，特征T（指每一个词汇）给分类
复制链接

扫一扫

专栏目录