文本分类-特征选择方法
一、概念
特征词选择和特征词权重
1.特征词选择:特征词选择是为了降低文本表示的维度,而特征词权重是为了表示文本表示中每一个特征项的重要程度。
常见的且基础的文本特征选择的算法有基于文档频率(DocumentFrequency)、信息增益(InformationGain,IG)、开方拟和检验方法(CHI统计)、互信息(mutualInformation)、潜在语义分析LSA、期望值交叉算熵、文本证据权、termstrength(TS)、GSSCoefficient、oddsratio。
2.特征词权重:每一个特征项的重要程度
常见的算法:TF-IDF,TF的改进,信息熵的引用
3.区别:特征词选择是为了降低文本表示的维度,而特征词权重是为了表示文本表示中每一个特征项的重要程度。
二、特征选择方法总结
1.文档频率
词条的文档频率(document frequency)是指在预料中出现该词条的文档的数目。只有当某词条在较多的文档中出现时才被保留下来,DF值低于某个阈值的词条是低频词,将这样的词条从原始特征空间中移除,不但能够降低特征空间的维数,而且还有可能提高分类的精度。
DF是一种最简单的词约简技术,由于具有相对于预料规模的线性复杂度,所以它能够容易地被用于大规模的语料特征选择中。
缺点:对低文档频的特征项不可靠,而且不能说明词条和类别的相关性