文本分类:特征选择统计量

在文本分类中,用于特征选择的统计量主要有这些:

  1. 特征频度(term frequency,tf)

原理是:低频的往往对分类影响不大,从而可以被排除掉。同时,不是所以高频都是影响大的,比如在文本中分布均匀的高频的贡献是不大的。

应用: 主要用在文本标引时直接删除某些低频特征

      2. 文本频度(document frequency,df)

原理是:稀有词条可能是噪声,但也可能对某一类别的区分作用显著

应用:多于tf结合起来使用

      3. 信息熵(特征熵)

clip_image001

公式理解: 某个随机变量的取值x能够提供的信息量为log(1/p(x)),那么信息熵就是这些取值的能够提供的信息量的平均值,pi是特征w属于ci的概率,即P(Ci|w)

如果pi表示xi发生的概率,如果pi约接近于1,则这种xi可以被理解成约接近大家通识的事实,故对预测提供的价值越少,即信息熵越少,因此信息熵应该是pi的单项递减函数。故公式为 对于时间xi而言,其信息熵为K,对于每一个可能出现的随机事件,平均信息熵即为该信源的信息熵

clip_image002

如果把抛硬币当作一个信源,那么出现正反面的概率均是0.5的时候,说明该信源的随机性越强,即信息熵越大。

clip_image003

上面例子中,第一种情况信息熵为0.056k,第二种0.693k (以自然底数为底)

应用:把特征t当做是一个事件,而类别C是一个系统(信源),每一个类别就是一个随机变量,那么当t发生时,系统C的条件熵便是当t在文本中出现时,这个系统的不确定性,即确定该文本所属类型的不确定性,故特征熵越小,该特征对分类的作用越大。

公式:clip_image004

clip_image005

        4. 信息增益(information gain)

原理:信息增益衡量的是某个特征出现前后,该分类系统不确定性的变化程度。那么,对于出现后,显然就是上述公式;出现前可以这样理解,对于一个词,它是被固定的,即我们知道这个词一定在所有文本中都出现,或是都不出现。但是到底该固定到哪种情况呢?需要通过每种情况的概率来平均。

公式:

分类系统包含特征T(T是一个特征,即T出现): H(C)

分类系统固定特征T(T不出现): H(C|T) ,

clip_image006

因此,信息增益公式如下

clip_image007

上述公式也等价于:

clip_image008

         5. 互信息(mutual information)

原理:将系统C中的每一个类别ci看成是一个事件,当特征的出现只依赖于某一类别时,互信息很大;相互独立时,互信息为0;当特征很少在该类别中出现时,互信息为负。

公式:

clip_image009

         6. X2统计量(chi-square, Chi)

原理:不解释,较直观

公式:

clip_image010

应用:计算特征t全局的Chi值,选择Chi值较大的特征

全局计算方式1:

clip_image011

全局计算方式2:

clip_image012

转载于:https://www.cnblogs.com/betterSN/p/4353256.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值