数据挖掘-10

最新推荐文章于 2023-07-20 18:49:26 发布

画个圈圈诅咒你 yebo

最新推荐文章于 2023-07-20 18:49:26 发布

阅读量134

点赞数

分类专栏：笔记学习文章标签：数据挖掘 python 人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_53950248/article/details/126548935

版权

目录

NLTK实现TF-IDF算法

Sklearn实现TF-IDF算法

Jieba实现TF-IDF算法

TF-IDF算法

介绍

TF-IDF（term frequency–inverse document frequency，词频-逆向文件频率）是一种用于信息检索（information retrieval）与文本挖掘（text mining）的常用加权技术。

TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

TF-IDF的主要思想是：如果某个单词在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。

（1）TF是词频(Term Frequency)
词频（TF）表示词条（关键字）在文本中出现的频率。

这个数字通常会被归一化(一般是词频除以文章总词数), 以防止它偏向长的文件。

公式：即：

其中 ni,j 是该词在文件 dj 中出现的次数，分母则是文件 dj 中所有词汇出现的次数总和；

（2） IDF是逆向文件频率(Inverse Document Frequency)
逆向文件频率 (IDF) ：某一特定词语的IDF，可以由总文件数目除以包含该词语的文件的数目，再将得到的商取对数得到。

如果包含词条t的文档越少, IDF越大，则说明词条具有很好的类别区分能力。

公式：

其中，|D| 是语料库中的文件总数。 |{j:ti∈dj}| 表示包含词语 ti 的文件数目（即 ni,j≠0 的文件数目）。如果该词语不在语料库中，就会导致分母为零，因此一般情况下使用 1+|{j:ti∈dj}|

即：

（3）TF-IDF实际上是：TF * IDF
某一特定文件内的高词语频率，以及该词语在整个文件集合中的低文件频率，可以产生出高权重的TF-IDF。因此，TF-IDF倾向于过滤掉常见的词语，保留重要的词语。

公式：

注： TF-IDF算法非常容易理解，并且很容易实现，但是其简单结构并没有考虑词语的语义信息，无法处理一词多义与一义多词的情况。

应用

（1）搜索引擎；（2）关键词提取；

最低0.47元/天解锁文章

画个圈圈诅咒你 yebo

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
数据挖掘-10

TF-IDF（term frequency–inverse document frequency，词频-逆向文件频率）是一种用于信息检索（information retrieval）与文本挖掘（text mining）的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。...
复制链接

扫一扫

专栏目录

画个圈圈诅咒你 yebo CSDN认证博客专家 CSDN认证企业博客

码龄4年

74: 原创

39万+: 周排名

164万+: 总排名

2万+: 访问

: 等级

761: 积分

227: 粉丝

11: 获赞

15: 评论

23: 收藏

私信

关注

热门文章

分类专栏

笔记 71篇
学习 70篇

最新评论

Java数据结构与算法
CSDN-Ada助手: 多亏了你这篇博客, 解决了问题: https://ask.csdn.net/questions/8025854, 请多输出高质量博客, 帮助更多的人
数据挖掘-05
Passerby_Wang: 写得也太详细了吧，学到了好多也欢迎博主来我这里指点一二呀
vue技术
画个圈圈诅咒你 yebo: 已经回关啦！！！嘿嘿
vue技术
画个圈圈诅咒你 yebo: 谢谢鼓励呀
vue技术
zhouluobo: 你文章写的这么好，周围的小伙伴儿都知道吗

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。