TextRank算法

背景

TextRank算法来自于PageRank算法。

论文:TextRank: Bringing Order into Texts
窗口的概念可以参照论文中的描述。

PageRank

PageRank算法首先给每个网页一个PR值,由于PR值物理意义为一个网页被访问的概率,所以一般为 1 N \frac{1}{N} N1, 通常PR值的总和为1。这是一种迭代算法,PR值越大,表示网页的重要性越大。
P R ( u ) = ∑ v ∈ B u P R ( v ) L ( v ) P R(u)=\sum_{v \in B_{u}} \frac{P R(v)}{L(v)} PR(u)=vBuL(v)PR(v)
B u B_u Bu是链接到所有网页 u u u的集合, P R ( ⋅ ) PR(\cdot) PR()是每个网页的 P R PR PR值, L ( v ) L(v) L(v)是网页 v v v的对外链接数。
算法步骤:(1)初始化每一个结点的概率,初始化为 1 / N 1/N 1/N表示为均值。
(2)在这里插入图片描述
因为A,B,C都是接入D的,所以D的PR值是等于A,B,C的PR值之和(利用上述公式,注意分母)。
在这里插入图片描述
A,B,C又接入了其它结点,所以需要按照贡献做一个比值。

由于存在一个网页只对自己有自链接,或者是几个网页的出链形成一个循环圈。然后造成算法在迭代过程中,只增不减的情况(自己理解可以通过计算去验证,也是在计算中出现了这种问题,所以研究人员对算法进行了改进),改进后的算法如下所示:
P R ( p i ) = α ∑ p j ∈ M p i P R ( p j ) L ( p j ) + ( 1 − α ) N P R\left(p_{i}\right)=\alpha \sum_{p_{j} \in M_{p_{i}}} \frac{P R\left(p_{j}\right)}{L\left(p_{j}\right)}+\frac{(1-\alpha)}{N} PR(pi)=αpjMpiL(pj)PR(pj)+N(1α)

N N N表示节点的数量。

TextRank

TextRank算法是一种文本排序算法。区别于PageRank算法:PageRank算法构造的是有向无权图,而TextRank算法根据词之间的共现关系构造网络,得到的是无向有权边。TextRank将文档看作是一个词的网络,通过词与词的语义关系表示网络中的链接。每个单词是TextRank算法中的一个结点。使用word2vec可以对句子中的单词进行Embedding编码,然后可以通过Embedding计算句子的相似度, W S ( V i ) WS(V_i) WS(Vi)可以表示为句子的相似度。
W j i ∑ V k ∈ O u t ( V j ) W j k \frac{W_{j i}}{\sum_{V_{k} \in O u t\left(V_{j}\right)} W_{j k}} VkOut(Vj)WjkWji
分母表示所有对外链接数权重的和,表示的是概率。
W S ( V i ) = ( 1 − d ) + d ∗ ∑ V j ∈ I n ( V i ) W j i ∑ V k ∈ O u t ( V j ) W j k W S ( V j ) W S\left(V_{i}\right)=(1-\mathrm{d})+\mathrm{d} * \sum_{V_{j} \in I n\left(V_{i}\right)} \frac{W_{j i}}{\sum_{V_{k} \in O u t\left(V_{j}\right)} W_{j k}} W S\left(V_{j}\right) WS(Vi)=(1d)+dVjIn(Vi)VkOut(Vj)WjkWjiWS(Vj)
在这里插入图片描述

参考资料

https://blog.csdn.net/u013007900/article/details/88961913 (PageRank)
https://blog.csdn.net/wotui1842/article/details/80351386 (TextRank)
https://blog.csdn.net/asialee_bird/article/details/96894533(TextRank 公式清晰,有程序)
TextRank算法可以从中文文本中提取关键词和摘要,TextRank算法在textrank4zh中有实现,参数解析见:
https://www.jianshu.com/p/cf0a118215d7
http://blog.sina.com.cn/s/blog_628cc2b70102wx92.html(词性解释)
文本关键字textrank技术点之窗口中的词对
https://blog.csdn.net/a857553315/article/details/108044082

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值