文本特征词提取算法

在文本分类中,特征词提取至关重要。本文介绍了信息增益和卡方检验两种算法用于提取特征词。信息增益计算每个词的信息熵变化,卡方检验则通过比较实际值与理论值的偏差来确定词与类别的相关性。这两种方法各有优缺点,适用于不同的场景。
摘要由CSDN通过智能技术生成

在文本分类中,需要先对文本分词,原始的文本中可能由几十万个中文词条组成,维度非常高。另外,为了提高文本分类的准确性和效率,一般先剔除决策意义不大的词语,这就是特征词提取的目的。本文将简单介绍几种文本特征词提取算法。

信息增益(IG)

对于一个系统,其信息熵为 H(S)=−∑iCPilog2(Pi). C表示类别个数, Pi表示第 i的类别的概率。某个特征 F,有该特征和没有该特征,信息量的变化,就是信息增益。

对特征 F,它的取值有 n种( x1 x2, ... ,  xn),计算每个值的条件熵,并取均值

H(C|F)=∑inPiH(C|X=xi)

在分类中,特征词 f只有存在(取值1)和不存在(取值为0)。那么 H(C|f)=P(f=0)H(C|f=0)+P(f=1)H(C|f=1)。所以信息增益为

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值