TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency),IDF意思是逆文本频率指数(Inverse Document Frequency)。 用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度 ——摘自百度百科
TF:Term Frequency,衡量一个term在文档中出现得有多频繁。
TF(t) =(t在文档中出现的次数)/(文档中的term总数)
IDF:Inverse Document Frequency,衡量一个term有多重要。
有些词出现很多,但是没有什么卵用。例如 'is', 'the', 'and'之类。为了平衡,把罕见的词的重要性(weight)提高,把常见词的重要性降低。
IDF(t) = log(文档总数/含有t的文档总数+1)
含有t的文档总数+1:若t不在语料库中,防止分母等于0
TF-IDF=TF*IDF
原理:如果词t在一篇文档中出现的频率高,并且在其他文档中很少出现,则认为词t具有很好的区分能力,适合用来把当前文章和其他文章区分开来。
NLTK实现TF-IDF:
import nltk
from nltk.text import TextCollection
# 所有的文档放到TextCollection类中
# 这个类会自动进行断句,做统计,做计算
corpus = TextCollection(['this is my sentence','this is my life','this is the day'])
# 传入两个参数:term, sentence
print(corpus.tf_idf('my','this is my car'))
>>>0.028961793436297456
# 对于每个新句子,遍历计算tf-idf
new_sentence = 'this is sentence four'
standard_vocab =nltk.word_tokenize(new_sentence)
for word in standard_vocab:
print(corpus.tf_idf(word, new_sentence))
>>>0.0
0.0
0.05231487088895761
0.0