文本特征提取

文本特征提取

@(NLP)[IG,X2,CE]
TF-IDF可以有效的评估一个字词对于一个文件集或一个语料库的重要程度。但在文本分类中,它的区分度不够,没有考虑特征词在类间的分布。也就是选择特征应该在某类出现多,而其它类出现少。也没有考虑特征词在类内部文档的分布情况,如果特征词均匀分布在其中,则这个特征词能够很好的代表这个类的特征。
特征提取的目的在于降维。

卡方特征提取

卡方检验最基本的思想是通过观察实际值与理论值的偏差来确定理论的正确与否。具体做的时候常常先假设两个变量确实是独立的(‘原假设’),然后观察实际值与理论值(‘指的是在两者确实独立时’,应有的值)的偏差成度,如果偏差足够小,认为两者确实独立,接受原假设,如果偏差大,则否定原假设。选定为特征词。
在文本分类的特征选择阶段,一般使用‘词t与类别c不相关’ 来做原假设。计算出的开方值越大,说明对原假设的偏离越大,倾向于认为假设的反面情况是正确的。计算好每个类的开方值后,取前k个就可以。
理论值为E,实际值为x,偏差程度的计算公式为:

i=1n(xiE)2E

当提供多个观察值X1,X2,…,Xn,代入就可以求的开方值。
例如,N篇文档,分类有体育和非体育,考察特征词“篮球”与类别“体育”的相关性。

特征选择属于体育不属于体育总计
包含“篮球”ABA+B
不包含篮球CDC+D
总数A+CB+DN

根据原假设,“体育”类别中包含“篮球”的文档比例应与所有文档中包含“篮球”的文档比例相同。故A的理论值应为:

E11=(A+C)A+BN

差值:
D11=(AE11)2E11

同样计算剩下三种情况的差值 D12,D21,D22 。最后计算“篮球”与“体育”类文章的开方值:
x2=D11+D12+D21+D22=N(ADBC)2(A+C)(A+B)(B+D)(C+D)

卡方检验的缺点是:它只统计文档是否出现词,而不管出现了几次。这会使得对低频词有所偏袒(如一个词在一类文章的每篇文档中都只出现一次,其开方值却大过了在该类99%的文档出现了10的词,其实后者才是更具有代表性的)。因此开方检验也经常同其他的因素,如词频综合来考虑。
因为给定文档集合,和一个类别,N,A+C,B+D对于同一个类别的所有词来说都是一样的。可以简化。
copy连接 http://blog.sina.com.cn/s/blog_6622f5c30101datu.html

相对熵–卡方结合相对熵

相对熵也称为KL距离,反应的是文本类别的概率分布和在出现了某个特征的条件下文本类别的概率分布直接的距离。具体公式表示如下:

ECE(t)=p(t)i=1|c|p(ci|t)logp(ci|t)p(ci)

其中p(t)表示特征t在文本中出现的概率,p(Ci)表示Ci类文本在文本集中出现的概率,p(Ci|t)表示文本包含特征t时属于类别c的概率,|C|表示类别总数。如果特征t和类别强相关,即P(Ci|t)大,并且相应的P(Ci)又比较小,则说明特征t对分类的影响大,相应的期望相对熵值也比较大。
一个可以改进的地方,结合特征项在类内和类间分布的均匀程度(也就是结合卡方思想)。
引入如下两个特征:
1. 类间集中度 Concentration Degree,表示的是特征项在各个类别中分布的均匀程度,特征项越集中分布在某个类别而不是均匀分布在各个类中时,携带的信息就越多,表征类别的能力就越强。

CD(ci,t)=NctNt

其中,Nct,表示Ci类中出现特征t的文本数,Nt表示训练集中出现t的文本数。
2. 类内分散度 Distribution Degree,表示的是特征项在某个类内部分布的均匀程度,特征项在某个类中越多的文本中出现,越分散,就越能代表该类。
DD(ci,t)=NctNc

其中Nct表示Ci类中出现特征t的文本数,Nc表示Ci类中的总文本数。
改进后的相对熵公式为:
CD_ECE(t)=CD(ci,t)DD(ci,t)p(t)i=1|c|p(ci|t)logp(ci|t)p(ci)

实验验证卡方+相对熵效果很不错
引用连接http://blog.csdn.net/fighting_one_piece/article/details/38562183

信息增益IG

信息增益只能考察特征对整个系统的贡献,而不能具体到某个类别上。因此可以结合卡方进行特征提取。

IG(X)=H(Y)H(Y|X)=i=1cp(yi)logp(yi)+k=1np(Tk)i=1cp(yik)logp(yik)

其中 p(yik) 表示,类别i中,出现特征k的概率。对应文本分类,特征词k取值为1,0,分别表示出现或者不出现的概率。对于信息增益,公式右边第一项总是相同的,可以忽略不算。
类似于卡方+相对熵。举一反三,个人觉得可以将卡方+全局特征提取方法结合起来。因此这里也可以尝试结合信息增益。前者卡方+相对熵已经做过了实验验证。这里的推导,还只是理论上,待实验验证效果如何。
结合公式表达如下:

X2_IG(X)=CD(ci,t)DD(ci,t)(H(Y|X))=k=1np(Tk)i=1cp(yik)logp(yik)CD(ci,t)DD(ci,t)

有机会来做实验验证。但是思路已经有了。就是将这样一个卡方(类内均匀度+类间分散度)的概念结合一些其它全局特征提取方法,产生一个变种,提升效果。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值