在文本分类中,需要先对文本分词,原始的文本中可能由几十万个中文词条组成,维度非常高。另外,为了提高文本分类的准确性和效率,一般先剔除决策意义不大的词语,这就是特征词提取的目的。本文将简单介绍几种文本特征词提取算法。
信息增益(IG)
对于一个系统,其信息熵为 H(S)=−∑iCPilog2(Pi). C表示类别个数, Pi表示第 i的类别的概率。某个特征 F,有该特征和没有该特征,信息量的变化,就是信息增益。
对特征 F,它的取值有 n种( x1, x2, ... , xn),计算每个值的条件熵,并取均值
H(C|F)=∑inPiH(C|X=xi)
在分类中,特征词 f只有存在(取值1)和不存在(取值为0)。那么 H(C|f)=P(f=0)H(C|f=0)+P(f=1)H(C|f=1)。所以信息增益为