TextRank算法提取文本关键词

本文介绍了TextRank算法,该算法源于Google的PageRank,用于从文本中提取关键词。文章详细阐述了PageRank的基本思想,即通过网页间的链接计算重要性。接着,将PageRank应用于文本处理,形成TextRank算法,构建基于句子的带权无向图,通过迭代计算句子的相似度来提取关键词。示例展示了如何从文本中应用TextRank算法提取关键词。
摘要由CSDN通过智能技术生成

TextRank算法是由 Google 搜索的核心网页排序算法 PageRank 改编而来,利用图模型来提取文章中的关键词,首先介绍一下 PageRank 排序算法

 

一、PageRank 算法

PageRank通过网页之间的超链接来确定页面的重要性,它将整个互联网可以看作是一张有向图,网页是图中的节点,网页之间的链接就是图中的边。根据重要性传递的思想,如果一个大型网站A含有一个超链接指向了网页B,那么网页B的重要性排名会根据A的重要性来提升。

构造完图后,使用下面的公式来计算网页i的重要性(PR值):

  • 其中V表示网页,S表示每个网页的score,S越大表示网页的重要程度越高。d是阻尼系数,一般取0.85

  • In(V) 表示存在指向网页 i 的链接的网页集合。Out(V)表示网页 j 中的链接指向的网页的集合;|Out(V)| 是集合中元素的个数

  • 在评价网页的重要性时,根据所有指向该网页 i 的网页 j 的重要性以及网页 j 中的链接指向的网页的数目。比如:一篇文章被许多权重高的网页指向ÿ

  • 5
    点赞
  • 34
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值