文本摘要（一） textrank 论文源码使用

最新推荐文章于 2022-06-06 15:49:49 发布

昕晴

最新推荐文章于 2022-06-06 15:49:49 发布

阅读量2.2k

点赞数 1

分类专栏：自然语言处理

本文链接：https://blog.csdn.net/qq_40210472/article/details/88203869

版权

本文介绍了TextRank算法的原理，它借鉴了PageRank的思想，用于文本重要性评估。TextRank在关键词抽取和文本摘要中有广泛应用。在关键词抽取中，通过迭代更新权重并使用precision, recall, F1-measure进行评价；在生成摘要时，利用句子的相似度，通常采用ROUGE评价方法。文中还提到了jieba库在TextRank实现中的作用，并提及了刘志远老师的中文标记数据集。" 124679947,11336085,基于Java与JSP的网上订餐系统设计与实现,"['Java开发', 'JSP', 'MVC框架', 'Web应用', '数据库设计']

摘要由CSDN通过智能技术生成

一、textrank 论文解读

textrank 的思想是从谷歌的pagerank借鉴的。那我们先来讲一下PageRank的原理，PageRank就是认为如果一个网页被很多网页链接的话，那就认为这个网页很重要。对于textrank 来讲那就是如果一个单词出现在很多单词后面，那么说明这个单词很重要。

textrank 是个基于图的算法，类似于熟悉的N-gram算法，在textrank中每一个词与其前面的N个词以及后面的N个词均具有图相邻的关系，与PageRank不同的是，textrank是无向图，又因为在网页浏览的背景下，一个页面包含到另一个页面的多个或部分链接是不寻常的，因此，基于图表的排名的最初定义是假定为“中性”。然而，在我们的模型中，图是从自然语言文本中构建的，并且可能包括从文本中提取的单元之间的多个或部分链接。

基于图的排序算法本质上是一种根据从图中提取的全局信息来决定图中定点重要性的方法。对于G = (V,E),这个图来说，V是顶点，（如果在关键词抽取中对应的单词词组，如果在摘要抽取中对应的是句子），E是边，对于一个顶点，In(Vi)是指指向Vi的所有顶点（前驱节点集合）,OUT(Vi)是Vi指向的顶点的集合（后继节点集合）。d是一个阻尼系数，在这里起到平滑的作用，通常设置为0。85。

textrank 的公式为：

TextRank中一个单词

最低0.47元/天解锁文章

昕晴

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
文本摘要（一） textrank 论文源码使用

一、textrank 论文解读textrank 的思想是从谷歌的pagerank借鉴的。那我们先来讲一下PageRank的原理，PageRank就是认为如果一个网页被很多网页链接的话，那就认为这个网页很重要。对于textrank 来讲那就是如果一个单词出现在很多单词后面，那么说明这个单词很重要。textrank 是个基于图的算法，类似于熟悉的N-gram算法，在textrank中每一个...
复制链接

扫一扫