PageRank原理及其文本摘要提取中的应用

PageRank原理:

  • 被更多网页链接的网页排名应该靠前。
  • 被排名靠前的网页链接的网页重要性也应该提升。
  • 一个网页的排名等于所有链接到该网页的网页的加权排名之和。

映射到文本领域:

  • 网页内容
  • 能和更多句子中的词相似的句子重要性大。

令W为转移矩阵,由句子之间相似度计算得来。

初始状态为均匀分布。

直到p收敛,得到pagerank分数。

D = [s1, s2, s3 …, sN] 

 

Words_list = [[w1, w2, …, sM], ...]  

 

Words_set = list(set(Vocab(s1) + Vocab(s2)))  size = Q 

 

Sentence Similarity = (words both in s1 and s2) / [log(len1) + log(len2)] 

 

 

W = similarity_matrix of Q * Q 

 

P0 = [1/Q, 1/Q, ...] 

 

While Pi – Pi-1 > e: 

Pi = Pi-1 * W 

... 

Until converge 

 

 

 

 

Get pagerank score of each sentence in D 

 

实现:python 

from textrank4zh import TextRank4Keyword, TextRank4Sentence

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值