TF-IDF介绍及应用

最新推荐文章于 2024-07-30 18:04:32 发布

海涛anywn

最新推荐文章于 2024-07-30 18:04:32 发布

阅读量4.7k

点赞数

分类专栏：自然语言处理机器学习算法文章标签：机器学习自然语言处理算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lihaitao000/article/details/51307365

版权

TF-IDF是一种用于信息检索和数据挖掘的加权技术，衡量词在文档中的重要性。它结合词频（TF）和逆文档频率（IDF）来过滤常见词汇，保留关键信息。TF-IDF主要应用于搜索引擎和文本分类，通过计算词频和逆文档频率给出词语的权重，高权重词更能代表文档主题。

摘要由CSDN通过智能技术生成

TF-IDF

基本概念

TF-IDF（term frequency–inverse document frequency）是一种用于信息检索与数据挖掘的常用加权技术。TF指词频，IDF指逆向文件频率。主要用于评估某个字词对于一篇文章或一个语料库里的一篇文章的重要性。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用，作为文件与用户查询之间相关程度的度量或评级。

原理

对于一份给定的文件，词频的计算方法很简单，直接拿某个给定词在文档中出现的次数除以该篇文档的总次数即可。为了保证结果不偏向于长文件，通常将得到的结果进行归一化处理，即分子一般小于分母。

逆向文件频率是一个词语普遍重要性的度量。某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到。

某一特定文件内的高词语频率，以及该词语在整个文件集合中的低文件频率，可以产生出高权重的TF-IDF。因此，TF-IDF倾向于过滤掉常见的词语，保留重要的词语。

TFIDF的主要思想是：如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。TFIDF实际上是：TF * IDF，TF词频

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。