深入探讨PageRank（二）：PageRank原理剖析

最新推荐文章于 2024-06-25 18:52:12 发布

MONKEY_D_MENG

最新推荐文章于 2024-06-25 18:52:12 发布

阅读量3.9w

点赞数 10

分类专栏：搜索引擎文章标签： google 算法 c html 互联网工作

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/MONKEY_D_MENG/article/details/6556295

版权

本文深入剖析了Google的PageRank算法，通过简单例子解释其迭代过程和收敛性。讨论了PageRank的"黑洞效应"，并将其与马尔可夫链的平稳分布联系起来，揭示了PageRank算法在处理网页链接关系中的工作原理。

摘要由CSDN通过智能技术生成

深入探讨PageRank（二）：PageRank原理剖析

关于PageRank的基础知识简介请参见博文：《深入探讨PageRank（一）：PageRank算法原理入门》。

一、PageRank算法的简单举例

Google PageRank算法的思想精华在于：将一个网页级别/重要性的排序问题转化成了一个公共参与、以群体民主投票的方式求解的问题，网页之间的链接即被认为是投票行为。同时，各个站点投票的权重不同，重要的网站投票具有较大的分量，而该网站是否重要的标准还需要依照其PageRank值。这看似是一个矛盾的过程：即我们需要用PageRank值来计算PageRank值~

听起来有点不可思议，既像是递归，又像是迭代，似乎陷入了一个漩涡，Google的创始人佩奇和布林证明了这个过程最终收敛值与初始值无关。遗憾的是我一直都没有找到这个证明，甚至我把佩奇他们当年那篇论文找出来看也没有发现~

对于PageRank的收敛性，我们是可以找到反例的，这说明PageRank至少在某些情况下是不可能收敛的，或者说是收敛不完备的。在本文的第三部分，我们将PageRank的问题转化为了马尔可夫链的概率转移问题，其收敛性的证明也即转化为了马氏链的平稳分布是否存在的证明。我们先来看一个简单的例子：

Google PageRank取值范围是0~10，为了叙述方便，我们使用0~1的区间作为度量，这并不会影响我们对PageRank原理的剖析，并且在初始化的时候，我们假设所有网站的PageRank的值是均匀分布的。这意味着，如果有N个网站，那么每个网站的PageRank初始值都是1/N。现在假设有4个网站A、B、C、D，则它们的初始PageRank都是0.25，它们的链接关系如下：

则初始值PR(A) = PR(B) = PR(C) = PR(D) = 0.25，又因为B、C、D都有指向A的链接，因此，它们每人都为A贡献了0.25的PageRank值，重新计算A的PageRank值为：PR(A) = PR(B) + PR(C) + PR(D) = 0.75，由于B、C和D并没有外部链接指向它们，因此PR(B)、PR(C)、PR(D)在这次计算中将被赋值为0。反复套用PageRank的计算公式，来看一下，这种情况下PageRank的收敛性，在第二次迭代之后，所有的PageRank值就都是0了：

PageRank	PR(A)	PR(B)	PR(C)	PR(D)
初始值	0.25	0.25	0.25	0.25
第一次迭代后	0.75	0	0	0
第二次迭代后	0	0	0

最低0.47元/天解锁文章

关注

10
点赞
踩
63

收藏

觉得还不错? 一键收藏
16
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 16

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。