今天,来学习文本的特征属性选择,在机器学习中,特征属性的选择通常关系到训练结果的可靠性,一个好的
特征属性通常能起到满意的分类效果。凡是特征选择,总是在将特征的重要程度量化后再进行选择,而如何量
化特征的重要性,就成了各种方法间最大的不同。接下来就介绍如何有效地进行文本的特征属性选择。
Contents
1. TF-IDF与特征属性选择
2. 信息增益与特征属性选择
3. 卡方检验与特征属性选择
4. 互信息与特征属性选择
文本分类作为一种有效的信息检索和信息过滤的关键技术,能按预定义的类别将待分类的文本进行归类。文本
分类中常用到向量空间模型(VSM),然而高维的向量空间模型严重影响了计算机的处理速度,因此需要对文
本的向量进行降维,那么就需要对文本进行特征属性选择。
目前在文本分类领域中常用的文本特征属性选择算法有:TF-IDF,信息增益,卡方检验,互信息等。
1. TF-IDF与特征属性选择
TF即词频(Term Frequency),表示词条在某个文档d中出现的频率。
IDF即逆向文件频率(Inverse Document Frequency),如果包含词条t的文档越少,那么IDF值
越大,则说明词条t具有很好的类别区分能力。
TF-IDF算法的主要思想是:如果某个词或短语在某一篇文章中的出现频率TF越高,而且在其它文章中很