TF-IDF算法步骤:
1) 计算词频:
词频 = 某个词在文章中出现的次数
考虑到文章有长短之分,考虑到不同文章之间的比较,将词频进行标准化
词频 = 某个词在文章中出现的次数/文章的总词数
或者 词频 = 某个词在文章中出现的次数/该文出现次数最多的词出现的次数
2) 计算逆文档频率
需要一个语料库(corpus)来模拟语言的使用环境。
逆文档频率 = log(语料库的文档总数/(包含该词的文档数 + 1))
3) 计算TF-IDF
TF-IDF = 词频(TF)* 逆文档频率(IDF)
#语料库content_clean 已经删除过停用词的语料库
test_str_list = content_clean[3002] #随便选择一条语料库中的文章作为测试的文本
word_count_dict = {
} #计算测试文本中每个词的词频
for word in test_str_list:
word_count_dict