文本摘要(一) textrank 论文 源码 使用

本文介绍了TextRank算法的原理,它借鉴了PageRank的思想,用于文本重要性评估。TextRank在关键词抽取和文本摘要中有广泛应用。在关键词抽取中,通过迭代更新权重并使用precision, recall, F1-measure进行评价;在生成摘要时,利用句子的相似度,通常采用ROUGE评价方法。文中还提到了jieba库在TextRank实现中的作用,并提及了刘志远老师的中文标记数据集。" 124679947,11336085,基于Java与JSP的网上订餐系统设计与实现,"['Java开发', 'JSP', 'MVC框架', 'Web应用', '数据库设计']
摘要由CSDN通过智能技术生成

一、textrank 论文解读

textrank 的思想是从谷歌的pagerank借鉴的。那我们先来讲一下PageRank的原理,PageRank就是认为 如果一个网页被很多网页链接的话,那就认为这个网页很重要。对于textrank 来讲那就是 如果一个单词出现在很多单词后面,那么说明这个单词很重要。

textrank 是个基于图的算法,类似于熟悉的N-gram算法,在textrank中每一个词与其前面的N个词以及后面的N个词均具有图相邻的关系,与PageRank不同的是,textrank是无向图,又因为在网页浏览的背景下,一个页面包含到另一个页面的多个或部分链接是不寻常的,因此,基于图表的排名的最初定义是假定为“中性”。然而,在我们的模型中,图是从自然语言文本中构建的,并且可能包括从文本中提取的单元之间的多个或部分链接。

基于图的排序算法本质上是一种根据从图中提取的全局信息来决定图中定点重要性的方法。对于G = (V,E),这个图来说,V是顶点,(如果在关键词抽取中对应的单词词组,如果在摘要抽取中对应的是句子),E是边,对于一个顶点,In(Vi)是指指向Vi的所有顶点(前驱节点集合),OUT(Vi)是Vi指向的顶点的集合(后继节点集合)。d是一个阻尼系数,在这里起到平滑的作用,通常设置为0。85。

textrank 的公式为:

   TextRank中一个单词

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值