PageRank原理及其文本摘要提取中的应用

最新推荐文章于 2023-03-14 17:13:41 发布

今天也要笑笑鸭

最新推荐文章于 2023-03-14 17:13:41 发布

阅读量618

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/silent_crown/article/details/88849171

版权

机器学习专栏收录该内容

23 篇文章 0 订阅

订阅专栏

PageRank原理：

被更多网页链接的网页排名应该靠前。
被排名靠前的网页链接的网页重要性也应该提升。
一个网页的排名等于所有链接到该网页的网页的加权排名之和。

映射到文本领域：

网页内容
能和更多句子中的词相似的句子重要性大。

令W为转移矩阵，由句子之间相似度计算得来。

初始状态为均匀分布。

直到p收敛，得到pagerank分数。

D = [s1, s2, s3 …, sN]

Words_list = [[w1, w2, …, sM], ...]

Words_set = list(set(Vocab(s1) + Vocab(s2))) size = Q

Sentence Similarity = (words both in s1 and s2) / [log(len1) + log(len2)]

W = similarity_matrix of Q * Q

P0 = [1/Q, 1/Q, ...]

While Pi – Pi-1 > e:

Pi = Pi-1 * W

...

Until converge

Get pagerank score of each sentence in D

实现：python

from textrank4zh import TextRank4Keyword, TextRank4Sentence

今天也要笑笑鸭

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
PageRank原理及其文本摘要提取中的应用

PageRank原理：被更多网页链接的网页排名应该靠前。被排名靠前的网页链接的网页重要性也应该提升。一个网页的排名等于所有链接到该网页的网页的加权排名之和。映射到文本领域：网页内容能和更多句子中的词相似的句子重要性大。令W为转移矩阵，由句子之间相似度计算得来。初始状态为均匀分布。直到p收敛，得到pagerank分数。D = [s1, s2, s3 …, sN...
复制链接

扫一扫

专栏目录

今天也要笑笑鸭 CSDN认证博客专家 CSDN认证企业博客

码龄7年

31: 原创

20万+: 周排名

44万+: 总排名

6万+: 访问

: 等级

960: 积分

5: 粉丝

20: 获赞

14: 评论

73: 收藏

私信

关注

热门文章

分类专栏

最新评论

文本分类任务中tf-idf的理解
今天也要笑笑鸭: 你动脑子仔细看看呢这都看不懂别玩机器学习了吧
文本分类任务中tf-idf的理解
qq_36415526: 确定公式和举得例子是保持一致的？你这有没有认真核实一下自己写的文章呢？
svm的loss和梯度推导及代码
爱编程的小段: 我在这纠结半天我也觉得是对W求导，误导人啊
svm的loss和梯度推导及代码
一位以泪洗面的同学: [code=python] if margin > 0: loss += margin dW[:,y[i]] += -X[i].T dW[:,j] += X[i].T [/code] 楼主不是 j!=y_i 得x_i吗？为什么是 dW[:,y[i]] += -X[i].T 是加的负的这个呢？我是小白，求解答QAQ
gensim + tfidf计算句子之间相似度
零一睡不醒: index：每个item代表一个句子和其他句子的相似度。你这是从哪里看到的结论，求个链接。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。