1. 什么是PageRank
PageRank对网页排名的算法,曾是Google发家致富的法宝。PageRank算法计算每一个网页的PageRank值,然后根据这个值的大小对网页的重要性进行排序。
2. 简单PageRank算法
首先,将Web做如下抽象:
- 将每个网页抽象成一个节点;
- 如果一个页面page a.html有链接直接链向page b.html,则存在一条有向边从page a.html到page b.html(多个相同链接不重复计算边)。
因此,整个Web被抽象为一张有向图。现在假设世界上只有四张网页:
page a.html
<html>
<head>
<title>a.page</title>
</head>
<body>
<a href="page b.html">go to b.html</a>
<a href="page c.html">go to c.html</a>
<a href="page d.html">go to d.html</a>
</body>
</html>
page b.html
<html>
<head>
<title>b.page</title>
</head>
<body>
<a href="page a.html">go to a.html</a>
<a href="page c.html">go to c.html</a>
</body>
</html>
page c.html
<html>
<head>
<title>c.page</title>