TF-IDF是基于词频的文本特征表示方法。TF(term frequency)绝对词频。IDF(Inverse Document Frequency,IDF)逆文本频率。这里先简单介绍下TF绝对词频。
一、TF绝对词频
绝对词频是相对于布尔词频来说的。布尔词频用0,1来表示某词是否出现。布尔词频无法区分不同特征项的重要程度,只能表示该词是否出现。相对词频使用词出现的频率来表示特征。这符合我们的直观感受。通常来说,总是出现的词比不怎么出现的词更重要。
但这也不是绝对的。例如一些停顿词,代词“的”“地”等等出现的频率也很高但事实上没什么作用。为此,提出了TF-IDF来表示特征。
二、TF-IDF
1、IDF
TF-IDF在TF值的基础上再乘以IDF权重来抑制停顿词的权重。IDF可以用来衡量某个词的“通用程度”。具体做法是如果某个词在所有的文档中都出现了,则认为这个词是比较通用的词。是由于语言描述的需要添加的助词,代词等等。相反,如果某个词在所有的文档中只出现了一次。则认为这个词不是语言描述需要的通用词。具体计算如下:
其中,N(x)表示包含词x的文档个数。N表示总的文档个数。举个极端的例子,我们有一个很大的文档库。包含文档的个数为N。这些文档中包含词x的个数也是N。也就是说每篇文档都包含了词x。那这个词就认定是由于汉语语言学的特点会经常用到词x,不包含什么有用的信息,IDF(X)=0。相反,如果只有1篇文档用了词x,则认为词x不是通用词IDF(x)=logN。为了出现避免分母N(X)=0的情况。通常做平滑处理。
2、TF-IDF