TF-IDF直观来说就是来确定一个词对某一篇文档的重要性,而这个重要性的核定还用基于一个语料库。
- 由于TF-IDF这样的一个功能,它就可以被用来提取一个文档中的关键字
- 当我们有了关键字之后,关键字就又可以代表一个文档,并用其来计算文档之间的相似度
TF-IDF的解释:
- TF(term frequency)的计算:这个文档中的每个词出现的频率
IDF(inverse document frequency):逆文档频率
本来每个词出现的次数越多那么说明这个词越重要(当然像‘的’,‘了’等这些词不算),但是遇到另一个问题,当我们遇到几个词它们的TF是一样的,那我们应该怎么决定谁是最重要的呢?有一种情况,当一个词一般情况下被使用的比较少,但是在这篇文档中突然的多了起来,说明这个词对于这篇文章很重要
- 另一种情况,虽然一个词不是一个停用词但是它也是会经常用的到,说明这个词对于这篇文章相对于第一种情况来说没有那么重要。
这就需要我们来平衡他们的重要性,可以采取权重的方式,这就是IDF,它是在整个语料库上来衡量一个词的使用情况。
TF-IDF计算方式:
- TF( term frequency ):这个词在这篇文档中出现的次数
- 它的计算方式不一定,TF=最简单的就是频次,
当一个文档很长的时候我们可以考虑进行标准化: - 例如是 TF=这个词在这篇文档中出现的次数/这篇文档的词的个数
- 或者是 TF=这个词在这个文档中出现的次数/这篇文档中频率最高的那个词的频次等等。
- 它的计算方式不一定,TF=最简单的就是频次,
- IDF(inverse document frequency):出现在这个词语的文档数与整个语料库的文档数的比例关系。
- IDF=log(出现这个词的文档的个数/(整个语料库的文档数+1))
最后,TF-IDF=TF*IDF