论文总结4 特征选择方法

 

1、信息增益IG

InfGain (W)

=H(C)-H(C|W )

=P(W)∑iP(Ci|W)logP(Ci|W)/P(Ci)+P(`W)∑iP(Ci|`W)logP(Ci|`W )/P(Ci)

2、期望交叉熵ECE

CrossEntryTxt(W) = P(W)∑iP(Ci|W)logP(Ci|W)/P(Ci)

3、互信息MI

MutualInfoTxt(W) = ∑iP(Ci)logP(W|Ci)/P(W)

4、改进的互信息IMI

IMI(W) = ∑iP(Ci)|logP(W|Ci)/P(W)|

5、互信息比值

MutualInfoRatio(W)=

0, if MaxInfo=0 LessMaxInfo=0;

а, if MaxInfo≠0 LessMaxInfo=0;

MaxInfo/LessMaxInfo, if LessMaxInfo≠0

其中: MaxInfo = max{| logP(W|Ci)/P(W)|}, LessMaxInfo = {| logP(W|Ci)/P(W)|- MaxInfo},i = 1,2…M. M是训练语料的类别数,а是预先给定的一个较大的常数.

比了4和5,5的效果好。

6、文档频率DF

DF(£)=出现特征f的文档数训练集的总文档数。

7、 X2统计量CHI(X2 Statistic)

CHI(F)=ΣP(ci)x2(t,ci)= ∑iP(Ci)N(AD-BC)2/(A+C)(B+D)(A+B)(C+D)

8、文本证据权(WET,the Weight of Evidence for Text)

WET(t)=P(t) ΣP(ci)| P(Ci|t)(1-P(Ci))/P(Ci)(1- P(Ci|t))|

9、几率比(0R,Odds Ratio)

Or(t)=log P(t|Cpos) (1- P(t|Cneg)/ P(t|Cneg) (1- P(t|Cpos)

结论:(1)OR方法的效果是最好的,IG、CHI和ECE次之,WET和DF再次,MI的效果是最差的。 (2)OR之所以会取得最好的效果是因为它不是将所有的类别同等对待,而是只关心目标类别。 (3)MI的效果最差,究其原因可能是MI没有考虑特征词出现的频度。(4)当特征维数从1 000到4 000变化时,F1值的变化是比较显著的,而当特征维数>6 000时,系统性能趋于平稳,其变化是缓慢的。

 

 

 

转载于:https://www.cnblogs.com/chrisnannan/archive/2012/12/05/2802952.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值