ML之02-TF-IDF算法原理及其应用

最新推荐文章于 2022-09-28 21:16:44 发布

Levine-Huang

最新推荐文章于 2022-09-28 21:16:44 发布

阅读量1.2k

点赞数 1

分类专栏：机器学习文章标签：算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_25059791/article/details/73479877

版权

本文介绍了TF-IDF算法的基本原理，包括词频计算、逆文档频率的确定以及TF-IDF值的计算。讨论了TF-IDF算法在用户画像、广告定向投放和搜索引擎优化等领域的应用，并通过余弦相似性解释了如何使用TF-IDF来找出相似文章。同时，指出了TF-IDF算法在实现过程中可能遇到的影响因素。

摘要由CSDN通过智能技术生成

如何借助计算机提取文章的关键词（Automatic Keyphrase extraction），或比较两篇文章的相似度？

TF-IDF算法
余弦相似性(cosine similiarity)

TF-IDF算法

TF-IDF介绍

TF-IDF（term frequency–inverse document frequency）是一种用于信息检索与数据挖掘的常用加权技术。用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度

如果某个词比较少见，但是它在这篇文章中多次出现，那么它很可能就对文章比较重要，反映了这篇文章的特性。某个词对文章的重要性越高，它的TF-IDF值就越大。所以，按 TF-IDF值逆序排列，排在最前面的几个词，就是这篇文章的关键词。

TF-IDF算法步骤

第一步，计算词频。

词频(TF) = 某个词在文章中的出现次数

考虑到文章有长短之分，为了便于不同文章的比较，进行”词频”标准化。
词频(TF) = 某个词在文章中的出现次数/文章的总词数或者

词频(TF) = 某个词在文章中的出现次数/文章中的出现次数最多的词的出现次数

第二步，计算逆文档频率。
这时，需要一个语料库（corpus），用来模拟语言的使用环境。

逆文档词频(IDF) = log(语料库的文档总数/(包含改词的文档数+1))

如果一个词越常见，那么分母就越大，逆文档频率就越小越接近0。分母之所以要加1，是为了避免分母为0（即所有文档都不包含该词）。log表示对得到的值取对数。
第三步，计算TF-IDF。

可以看到，TF-IDF与一个词在文档中的出现次数成正比，与该词在整个语言中的出现次数成反比。所以，自动提取关键词的算法就是计算出文档的每个词的TF-IDF值，然后按降序排列，取排在最前面的几个词。

TF-IDF算法实现

TF-IDF算法本身和实现过程中可能的影响因素

1、IDF的引入，其初衷是抑制某一文档内无意义高频词的负面影响，但是在总文档于关键词出现文档比值较大时，低频词将因此而被凸现出

最低0.47元/天解锁文章

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。