【AI知识点】词频-逆文档频率（TF-IDF）

AI完全体

已于 2024-10-15 09:48:14 修改

阅读量1.6k

点赞数 17

分类专栏： AI知识点文章标签：人工智能 tf-idf 机器学习自然语言处理文本相似性计算文本分类信息检索

于 2024-10-02 13:25:24 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43221845/article/details/142680422

版权

【AI论文解读】【AI知识点】【AI小项目】【AI战略思考】

词频-逆文档频率（TF-IDF，Term Frequency-Inverse Document Frequency）是一种用来衡量一个词在某个文档中的重要性，同时结合该词在整个文档集中的出现频率。它的核心思想是：在特定文档中出现频率高且在其他文档中较少出现的词会被赋予更高的权重，而那些在所有文档中普遍出现的词则会被削弱。

1. 词频（TF）

词频（Term Frequency，TF）表示某个词在文档中的出现频率，用来衡量该词在该文档中的相对重要性。它的计算公式为：

$\frac{\text{词} \ t \ \text{在文档} \ d \ \text{中出现的次数}}{\text{文档} \ d \ \text{中所有词的总数}}$

其中：

$t$ 表示某个词。
$d$ 表示某个文档。

词频的值范围为 $[0, 1]$ ，即表示该词在该文档中出现的频率比例。

2. 逆文档频率（IDF）

逆文档频率（Inverse Document Frequency，IDF）用来衡量一个词在整个文档集中出现的稀有程度。如果一个词在很多文档中出现，则该词的IDF值较低，因为它对区分文档的贡献较小。IDF的公式为：

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。