TF-IDF和TextRank

最新推荐文章于 2024-02-25 15:17:58 发布

ciaowzq

最新推荐文章于 2024-02-25 15:17:58 发布

阅读量316

点赞数

文章标签： nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_68041978/article/details/126972356

版权

TF-IDF简介

TF（term frequency)意为词频，用来计算关键词w在文档D中出现的频率，计算公式如下：

$TF=\frac{count(w)}{\left | Di \right |}$

其中count(w)为关键词w在目标文档（查询）中出现的次数，Di表示该文档中出现的词的总个数。当一个词在文档中出现次数越多，TF越大。

IDF(inverse document frequency)意为逆文档频率，用来表示关键词w在所有文档中出现的普遍程度，其计算公式如下：

$log\frac{N}{\sum_{i=1}^{N}I(w,Di)}$

N表示文档总个数，I(w,Di)用来衡量关键词w是否在第i个文档中出现，出现时取值为1，不出现时取值为0。由公式可知，IDF反应一个词的普遍程度-当一个词越普遍（即大量文档中都包含这个词时），IDF值越小。反之，IDF越大。

当一个词在所有文档中都未出现时，上式的分母为0，因此需要对公式进行平滑操作：

$IDF=log\frac{N}{1+\sum_{i=1}^{N}I(w,Di)}$

关键词w的TF-IDF值为上面两个值之积，即：

$TF-IDF=TF_{w,Di}*IDF_{w}$

从上述定义可知：

1、当一个词在文档中频率越高并且新鲜度高（即普遍度低），其TF-IDF越大。

2、TF-IDF兼顾词频和新鲜度，会过滤掉一些常见词，保存能够给目标文档提供更多信息的重要词。

TextRank简介

TextRank主要思想：通过词与词之间的相邻关系构建网络，然后用PageRank迭代计算每个节点的rank值，排序rank就可以得到关键词。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
TF-IDF和TextRank

N表示文档总个数，I(w,Di)用来衡量关键词w是否在第i个文档中出现，出现时取值为1，不出现时取值为0。由公式可知，IDF反应一个词的普遍程度-当一个词越普遍（即大量文档中都包含这个词时），IDF值越小。其中count(w)为关键词w在目标文档（查询）中出现的次数，Di表示该文档中出现的词的总个数。2、TF-IDF兼顾词频和新鲜度，会过滤掉一些常见词，保存能够给目标文档提供更多信息的重要词。1、当一个词在文档中频率越高并且新鲜度高（即普遍度低），其TF-IDF越大。TextRank简介。
复制链接

扫一扫

ciaowzq CSDN认证博客专家 CSDN认证企业博客

码龄2年

11: 原创

106万+: 周排名

155万+: 总排名

1万+: 访问

: 等级

128: 积分

8: 粉丝

10: 获赞

1: 评论

45: 收藏

私信

关注

热门文章

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。