TextRank论文阅读

最新推荐文章于 2022-12-17 22:06:50 发布

王学强_Bryan

最新推荐文章于 2022-12-17 22:06:50 发布

阅读量525

点赞数 2

文章标签：算法 python 开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45488132/article/details/125146699

版权

基本信息

先放出论文： TextRank论文以及 PageRank论文

TextRank 由 Rada Mihalcea 和 Paul Tarau 基于谷歌的排序方法 PageRank 所提出。其中主要思想与PageRank相似，在文本中，使用词、短语、句子等基本元素（文中的 text unit)来作为图的 顶点（文中的vertices)，使用这些元素的关系来作为边(edge)的构造条件，将一篇文章构成一个图(Graph)，从而根据图中的各个顶点和各个边来研究基本元素之间的关系。

无向图（Undirected Graphs)

文中说传统的图算法一般都是有向图，但是在实际运用中也可以使用无向图，并给出了图1（Figure1)，说明无向图相比来说收敛得更快。
收敛曲线

图1 收敛曲线图

加权图（Weighted Graphs）

因为在网页浏览中，一般一篇文章没有几个链接去指向其他的链接，所以一般不使用加权图。但是在文本之间，各个基本元素之间，可能会存在不同词之间建立强联系，所以可以使用加权图来构建。定义权重的计算公式为：
$WS(V_i)=(1-d)+d \times \sum_{V_j \in In(V_i)} \frac{w_{ji}}{\sum_{V_k \in Out(V_j)}w_{jk}} WS(V_j)$
其中 $d$ 表示阻尼系数，代表一个结点随机跳转到另一个结点的概率，在0~1之间，通常为0.85；

用图表示文本

可选的基本元素有很多，都可以作为顶点，如：词，常见的短语搭配，句子之类的；同时可以作为边的元素也很多，比如：词之间的情感关联，语义交叉等。不考虑以上的顶点和边，构建一个图来表示文本的基本思路如下：

根据手上的数据集，要解决的问题，来定义使用什么元素（text units)来作为图的顶点，将顶点全部放到图中去。
定义一种方式来连接顶点的边，可以是有向的，也可以是无向的，可以是加权的，也可以是不加权的。
迭代基于图的排序算法，直至收敛。
提取出得到的关键元素，然后就可以用了！

其中第一步主要是根据任务和数据，选出合适的表示元素；第二步主要是建立一个评估方法，评判怎么来构建两个基本元素的关系，从而来建立这条边。

具体内容

顶点和边

文中说选取词作为图的顶点，然后使用滑动窗口，在滑动窗口内找出共现的词（co-occurrence)作为边的构造条件。

过滤文本

使用一个句法过滤器，根据具体的需求过滤一些没用的基本元素。如去停用词，去形容词，去名词等。

以句子作为顶点

在以句子作为顶点的时候，边的确立不能再用共现关系了，因为基本句子之间不可能共现了，文中说使用句子之间的相关性来建立顶点之间的边。

王学强_Bryan

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
TextRank论文阅读

读TextRank论文的记录
复制链接

扫一扫

王学强_Bryan CSDN认证博客专家 CSDN认证企业博客

码龄5年

14: 原创

106万+: 周排名

27万+: 总排名

1万+: 访问

: 等级

165: 积分

7: 粉丝

15: 获赞

13: 评论

76: 收藏

私信

关注

热门文章

最新评论

PyQt designer 转换命令
CSDN-Ada助手: 恭喜你写了第13篇博客！标题中的"PyQt designer 转换命令"听起来很有趣。你的持续创作真是令人钦佩。对于下一步的创作建议，或许你可以考虑分享一些关于PyQt designer转换命令的实际应用案例，这样读者可以更好地了解如何在实际项目中使用这些命令。期待你的新作品！
numpy三维数据reshape的一些问题
CSDN-Ada助手: 恭喜您写了第14篇博客！标题看起来很有趣，我很期待阅读您关于"numpy三维数据reshape的一些问题"的内容。您对numpy的探索和分享给读者带来了很多价值，感谢您的持续创作。作为下一步的创作建议，或许您可以考虑探索一些更深入的numpy应用，比如在机器学习或数据分析中的实践案例，这样读者们可以更好地了解numpy在实际中的应用。谢谢您的努力，期待您未来更多精彩的博客！
处理复旦大学中文文分类数据集
weixin_45775682: 您好，训练集的数据能分享一下吗？
python多维列表想要分别赋值结果同时赋值
CSDN-Ada助手: 恭喜您写了第12篇博客！标题看起来很有趣，我对Python多维列表的赋值结果同时赋值这个话题很感兴趣。您的博客内容一定非常有深度和实用性。不过，我想提个建议：在这篇博客中，您可以进一步探讨多维列表的使用场景和实例，以便读者更好地理解和应用这个概念。期待看到您的下一篇博客，继续加油！
PyQt5由一个窗口打开另一个窗口并传参
CSDN-Ada助手: 恭喜您完成了第10篇博客，标题为“【无标题】”！能够连续创作十篇博客绝对是一项了不起的成就。您的坚持和努力值得赞许！对于这篇没有标题的博客，您充满了探索精神，勇敢地挑战了传统的写作方式。我认为这样的尝试非常有趣，也展现了您的创造力。在下一步的创作中，我建议您在标题方面再做些尝试。一个引人注目的标题会吸引更多读者的关注，激发他们的好奇心。您可以思考一下，从博客内容中提取一些关键词或者主题，再结合一些有趣的词语或表达方式，以吸引读者的眼球。不过，我要再次强调，这只是一个谦虚的建议，因为您的创作已经很出色了。希望您能够继续保持持续创作的势头，并且不断挑战自己，尝试不同的创作风格和主题。我期待着您未来更多精彩的博客！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。