TF-IDF算法

嘉木空青

已于 2022-06-02 15:03:21 修改

阅读量945

点赞数

分类专栏： NLP 文章标签：算法

于 2022-05-29 18:23:32 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Doutd_y/article/details/125033969

版权

NLP 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

算法简介

先简单解释一下，TF是词频(Term Frequency)，IDF是逆文本频率指数(Inverse Document Frequency)。

TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。

TF是词频，表示词条或关键字在文本出现的频率，计算方法如下：

$TF_{a}=\frac{k}{\sum _{M}j_{m}}$

其中分子为某一文件中词条 a 出现的频次为 k ，分母为该文件中 M 个词条各自出现的次数 $j_{m}$ 的总和。

IDF是逆向文件频率，由总文件数目 D 除以包含该词条文件的数目d，再对结果取对数，即：

$IDF_{a }=log\frac{D}{d+1}$

其中，分母加1是为了避免分母为0的特殊情况。

最后，衡量词条n在语料库中的重要程度为：

$TF-IDF = TF_{a}*IDF_{a}$

由上述公式可知，某一特定文件内的高词条频率，以及该词条在整个文件集合中的低文件频率，可以产生出高权重的TF-IDF。因此，TF-IDF倾向于过滤掉常见的词语，保留重要的词语。

应用场景

1）搜索引擎；

2）关键词提取；

3）文本相似性；

4）文本摘要。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。