PageRank算法--从原理到实现

最新推荐文章于 2024-08-31 23:41:15 发布

Summer-夏天

最新推荐文章于 2024-08-31 23:41:15 发布

阅读量1.2w

点赞数

分类专栏：算法文章标签： PageRank算法 Google搜索算法

本文链接：https://blog.csdn.net/u012721519/article/details/82493615

版权

本文详细介绍了PageRank算法的起源、原理、计算方法和实现，包括幂迭代法、特征值法、代数法以及基于迭代法和MapReduce的实现。讨论了算法的缺点，并提及TrustRank作为改进方案。

摘要由CSDN通过智能技术生成

本文将介绍PageRank算法的相关内容，具体如下：

1.算法来源
2.算法原理
3.算法证明
4.PR值计算方法
4.1 幂迭代法
4.2 特征值法
4.3 代数法
5.算法实现
5.1 基于迭代法的简单实现
5.2 MapReduce实现
6.PageRank算法的缺点
7.写在最后
参考资料

1. 算法来源

这个要从搜索引擎的发展讲起。最早的搜索引擎采用的是 分类目录[^ref_1] 的方法，即通过人工进行网页分类并整理出高质量的网站。那时 Yahoo 和国内的 hao123 就是使用的这种方法。

后来网页越来越多，人工分类已经不现实了。搜索引擎进入了 文本检索 的时代，即计算用户查询关键词与网页内容的相关程度来返回搜索结果。这种方法突破了数量的限制，但是搜索结果不是很好。因为总有某些网页来回地倒腾某些关键词使自己的搜索排名靠前。

于是我们的主角要登场了。没错，谷歌的两位创始人，当时还是美国斯坦福大学 (Stanford University) 研究生的佩奇 (Larry Page) 和布林 (Sergey Brin) 开始了对网页排序问题的研究。他们的借鉴了学术界评判学术论文重要性的通用方法，那就是看论文的引用次数。由此想到网页的重要性也可以根据这种方法来评价。于是PageRank的核心思想就诞生了[^ref_2]，非常简单：

如果一个网页被很多其他网页链接到的话说明这个网页比较重要，也就是PageRank值会相对较高

如果一个PageRank值很高的网页链接到一个其他的网页，那么被链接到的网页的PageRank值会相应地因此而提高

就如下图所示（一个概念图）:

概念图

2. 算法原理

PageRank算法[^ref_3]总的来说就是预先给每个网页一个PR值（下面用PR值指代PageRank值），由于PR值物理意义上为一个网页被访问概率，所以一般是1N1N，其中N为网页总数。另外，一般情况下，所有网页的PR值的总和为1。如果不为1的话也不是不行，最后算出来的不同网页之间PR值的大小关系仍然是正确的，只是不能直接地反映概率了。

预先给定PR值后，通过下面的算法不断迭代，直至达到平稳分布为止。

互联网中的众多网页可以看作一个有向图。下图是一个简单的例子[^ref_4]：

sample1