秒懂TF IDF 代码实现

最新推荐文章于 2024-05-12 19:03:25 发布

大义Python

最新推荐文章于 2024-05-12 19:03:25 发布

阅读量267

点赞数

分类专栏：数据分析&文本挖掘文章标签： TF IDF 机器学习关键词 python

本文链接：https://blog.csdn.net/u013965862/article/details/106521917

版权

TF-IDF算法步骤：

1）计算词频：

词频 = 某个词在文章中出现的次数
考虑到文章有长短之分，考虑到不同文章之间的比较，将词频进行标准化
词频 = 某个词在文章中出现的次数/文章的总词数
或者词频 = 某个词在文章中出现的次数/该文出现次数最多的词出现的次数

2）计算逆文档频率

需要一个语料库（corpus）来模拟语言的使用环境。
逆文档频率 = log(语料库的文档总数/(包含该词的文档数 + 1))

3）计算TF-IDF

TF-IDF = 词频（TF）* 逆文档频率（IDF）

#语料库content_clean 已经删除过停用词的语料库
test_str_list = content_clean[3002] #随便选择一条语料库中的文章作为测试的文本
word_count_dict = {
   } #计算测试文本中每个词的词频
for word in test_str_list:
    word_count_dict

最低0.47元/天解锁文章

大义Python

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
秒懂TF IDF 代码实现

TF-IDF算法步骤：1）计算词频：词频 = 某个词在文章中出现的次数考虑到文章有长短之分，考虑到不同文章之间的比较，将词频进行标准化词频 = 某个词在文章中出现的次数/文章的总词数或者词频 = 某个词在文章中出现的次数/该文出现次数最多的词出现的次数2）计算逆文档频率需要一个语料库（corpus）来模拟语言的使用环境。逆文档频率 = log(语料库的文档总数/(包含该词的文档数 + 1))3）计算TF-IDFTF-IDF = 词频（TF）* 逆文档频率（IDF）#语料库con
复制链接

扫一扫