TF-IDF算法介绍及实现

最新推荐文章于 2024-06-15 10:15:20 发布

tan2810

最新推荐文章于 2024-06-15 10:15:20 发布

阅读量1.5k

点赞数 2

分类专栏： NLP 文章标签： DF-IDF

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tan2810/article/details/96341729

版权

TF-IDF是一种统计方法，评估词在文件中的重要程度。TF是词频，IDF是逆向文件频率。TF-IDF适用于搜索引擎、关键词提取、文本相似性和文本摘要。本文介绍了TF-IDF算法原理，并提供了Python3、NLTK和Sklearn的实现示例。

摘要由CSDN通过智能技术生成

目录

1、TF-IDF算法介绍

（1）TF是词频(Term Frequency)

（2） IDF是逆向文件频率(Inverse Document Frequency)

（3）TF-IDF实际上是：TF * IDF

2、TF-IDF应用

3、Python3实现TF-IDF算法

4、NLTK实现TF-IDF算法

5、Sklearn实现TF-IDF算法

1、TF-IDF算法介绍
TF-IDF（term frequency–inverse document frequency，词频-逆向文件频率）是一种用于信息检索（information retrieval）与文本挖掘（text mining）的常用加权技术。

TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

TF-IDF的主要思想是：如果某个单词在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。

（1）TF是词频(Term Frequency)
词频（TF）表示词条（关键字）在文本中出现的频率。

这个数字通常会被归一化(一般是词频除以文章总词数), 以防止它偏向长的文件。

公式：即：

其中 ni,j 是该词在文件 dj 中出现的次数，分母则是文件 dj 中所有词汇出现的次数总和；

（2） IDF是逆向文件频率(Inverse Document Frequency)
逆向文件频率 (IDF) ：某一特定词语的IDF，可

最低0.47元/天解锁文章

关注

2
点赞
踩
24

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。