TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文档频次)算法是一种基于统计的计算方法,常用于评估一个文档集中一个词对某份文档的重要程度。一个词对文档越重要,那就越可能是文档的关键词,常将TF-IDF算法用于关键词提取中。
TF-IDF算法由两部分组成:TF算法以及IDF算法。
TF算法是统计一个词在一篇文档中出现的频次,一个词在文档中出现的次数越多,则其对文档的表达能力越强。
IDF算法是统计一个词在文档集的多少个文档中出现,一个词在越少的文档中出现,则其对文档的区分能力越强。
TF = 某个词在文档中出现的次数 / 文档总词数
IDF = log(文档集中总文档数 / (文档集中出现该词的文档数量+1))
TF-IDF = TF × IDF