本篇关于TF-IDF/CHI/IG。
参考:
http://blog.sina.com.cn/s/blog_6622f5c30101datu.html
http://lovejuan1314.iteye.com/blog/651460
1)TF-IDF在特征选择时的误区。
TF-IDF用于向量空间模型,进行文档相似度计算是相当有效的。但在文本分类中单纯使用TF-IDF来判断一个特征是否有区分度是不够的。
===》它仅仅综合考虑了该词在文档中的重要程度和文档区分度。
===》它没有考虑特征词在类间的分布。特征选择所选择的特征应该在某类出现多,而其它类出现少,即考察各类的文档频率的差异。如果一个特征词,在各个类间分布比较均匀,这样的词对分类基本没有贡献;但是如果一个特征词比较集中的分布在某个类中,而在其它类中几乎不出现,这样的词却能够很好代表这个类的特征,而TF-IDF不能区分这两种情况。
===》它没有考虑特征词在类内部文档中的分布情况。在类内部的文档中,如果特征词均匀分布在其中,则这个特征词能够很好的代表这个类的特征,如果只在几篇文档中出现,而在此类的其它文档中不出现,显然这样的特征词不能够代表这个类的特征。
2)特征选择方法综述。
文本中能观察到的量其实只有两个:词频和文档频率,所有的方法一律以这两个量为计算基础。
针对英文纯文本的实验结果表明:作为特征选择方法时,卡方检验和信息增益的效果最佳(相同的分类算法,使用不同的特征选择算法来得到比较结果);文档频率方法(直接依据文档频率大小排序的方法)的性能同前两者大体相当,术语强度方法性能一般;互信息方法的性能最差。
3&#