pagerank原版论文翻译[unfinished]

原文The PageRank Citation Ranking: Bringing Order to the Web

PageRank 引用排名算法:恢复网页的秩序

1月29日,1998年

摘要

网页的重要性本质上是主观的,取决于读者的兴趣,具有的知识水平以及态度。但也有很多和网页重要性相关的客观因素。这篇论文讲的是PageRank,一种客观而自动化的网页排名算法,有效地衡量人们对于网页的兴趣和注意。

1 导言和本文的出发点

万维网的信息提取是很有挑战性的活。它无比巨大而且异构(事物由很多不同结构的组分构成,译者注)。当前的估计认为有已经有1亿5000万的网页,并且以每年增加超过一倍的速度增长。更重要的是,网页的差别非常大,有的网页关于“乔今天中午吃什么“,而有的网页是有关信息提取的论文杂志。除了这些巨大的挑战以外,搜索引擎还要和没有经验的用户以及专门构造来欺骗搜索引擎排名的页面作斗争。

然而,不同于纯文字文档的集合,万维网是超文本并且提供相当多的辅助信息,比如有很多链接,以及链接的文字。在这篇论文里,我们利用网络的链接结构来生成每个网页的全球重要度排名。这个排名,称作PageRank,帮助搜索引擎和用户来理解万维网的巨大的异构性。

1.1 网页的多样性

尽管已经有大量文献有关学术引用分析,网页和学术出版物的差别是很大的。不同于严谨审阅过的学术论文,网页的繁衍没有那么多质量控制或者发布成本制约。写一个简单的程序就可以创建大量的网页,虚拟地增加引用数量。因为网络环境里有互相竞争的逐利资本,增加自己排名的策略会跟着搜索引擎算法而演化。出于这个原因,任何简单对网页进行计数排名的算法都会被操纵。此外,学术论文的工作量都差不多,质量和引用量大致相同,目的也相同 - 为了扩大知识总量。(to extend the body of knowledge,译者注) 网页在质量,使用,引用和长度方面的多样性远远大于学术论文。一个随意的帖子提的一个关于IBM电脑的模糊问题与IBM主页是非常不同的。一篇关于手机对驾驶员注意力影响程度的研究文章大大区别于一则特定的移动运营商广告。网络的平均用户体验要高于网页的平均质量。因为创建/发布网页非常容易导致大量低质量的网页用户不太可能看到。

网页可以从很多维度被区分开。在这篇论文里,我们主要考虑一个维度 - 所有网页的相对重要性估计

1.2 PageRank

为了衡量网页的相对重要性,我们提出PageRank,根据网络图来计算每个网页排名的算法。PageRank可以应用于搜索,浏览和交通情况估计。

第2部分给出PageRank的数学描述并且提供直觉的论证。第3部分我们如何有效地计算5.18亿条超链接的PageRank。为了测试PageRank对于搜索的可用性,我们建立了一个搜索引擎,叫Google。我们也展示了PageRank如何应用于浏览助手。

2 所有网页的排名

2.1 相关工作

已经有很多的工作关于学术论文引用分析[Gar95]。Goffman[Gof71] 出版了一些有趣的理论关于在学术社区,信息如何像流行病一样传播。

已经有很多如何利用网络的超文本链接结构的文章。Ptikow最近完成了他的博士论文关于”万维网生态的特点“,有很多基于链接的分析。Weiss讨论了考虑链接结构的聚类方法。Spertus讨论了从链接中可以获得并用于很多应用的信息。最近,Kleinberg开发了一个网络的有趣模型:中枢和权威,基于网页的引用矩阵(co-citation matrix of the web,译者注)计算特征向量。

最终,在图书馆社区有一些关于如何定义网络内容质量的研究。

应用标准的引用分析技术来研究网络的超文本引用结构是显然的。我们可以把每个链接看成一个学术引用。所以,一个大网页如http://www.yahoo.com/会有成千上万条后链(backlink)或者说引用指向它。

有很多后链指向Yahoo主页的事实基本表明这是一个相当重要的网页。确实,很多搜索引擎对后链进行计数来增加重要网页的权值。然而,仅仅对后链进行计数会导致很多问题。一些问题的出现和网络的特征有关,在学术引用数据库中并不存在。

2.2 网络的链接结构

尽管估计值有很多,现今可以爬取的网络图大约有1.5亿个节点和17亿条边(链接)。每个网页有一些出链(出边)和后链(入边)。我们不太容易知道我们是否找到了一个网页的所有后链,但只要我们下载了网页,我们可以知道所有的出链。

图1 A和B是C的后链

网页的后链差别非常大。比如说,在我们的数据库中Netscape主页有62,804条后链,而绝大多网页只有几条后链。总的来说,具有很多后链的网页比起只有几条链接的网页要重要。简单的引用计数被用于预测未来的诺贝尔奖获得者。PageRank的引用计数机制更加成熟。

PageRank的优势在于很多情况下,简单的引用计数并不符合重要度。比如,比如,如果一个网页有一个来自Yahoo主页的后链,尽管只是一条链接,但这是非常重要的一条。这个页面的排名应该比有很多来自不知名地方的链接的页面要高。PageRank仅仅从链接结构来获知页面的重要度。

2.3 通过链接传播权重

基于以上的讨论,我们给出下面的对于PageRank的直观的描述:如果一个页面所有后链的权重之和高的话,这个页面就有比较高的权重。这包含了两种情况,一个页面有很多后链或者一个页面有一些(数目不多的)权重高的后链。
Γ(n)=(n1)!nN

x=b±b24ac2a

2.4 PageRank定义

假设有一个网页u。让Fu表示u指向的页面集合,Bu表示指向u的页面集合。Nu=|Fu|表示u的出链条数,c是标准化因子(使得所有网页权重之和为常数)。

我们先定义一个简单的排名方法:R,PageRank的简化版:

R(u)=cvBuR(v)Nv


图2:简化的PageRank计算

这样把之前的直觉转化为公式。注意到,一个页面的权重平均分配给它的出链。注意到c<1因为有很多页面没有出链,导致这些页面的权重从整个系统的角度就丢失了(具体看2.7节)。这个方程是递归的,但可以从任意权重集合开始迭代计算直到收敛。图2展示了权重从一对页面传递到另一对页面的过程。图3展示了一组页面取得稳定态的结果。

用另一种角度说,A是一个正方矩阵,行和列对应网页。如果有一条边从u到v就让 Au,v=1/Nu 不然就设为0.如果我们把R当成一个网页的矢量,我们就有R=cAR。所以R是A的特征值为c的特征向量。事实上,我们要求A的主要特征向量(dominant eigenvector)。可以通过不停向起始矢量乘以A计算而得。

这个简化的排名函数有个小问题。考虑两个网页互相链接,但不链接到其他网页。假设有一个网页指向其中一个网页。那么,在迭代时,这个循环会不断积累权重,而从来不发出权重(因为没有出边)。这样的循环形成一个我们称为沉没权重(rank sink)的陷阱

为了解决这个问题,我们介绍权重源。

定义1 E(u)是网页的矢量对应权重的源。那么一组网页的PageRank,是满足下面等式的R’,
R(u)=cvBuR(v)Nv+cE(u)


图3 简化的PageRank 计算
图4 沉没权重的循环

E(u)是网页的矢量,对应一个权重的源(source of rank)(看第六节)。注意如果E全部是正值,c必须缩小来平衡等式。因此,这种技术和一个衰减因子对应。用矩阵表达我们有 R=c(AR+E) 。既然 ||R||l=1 ,那么我们可以重新写成 R=c(A+E1)R 1是值全部为1的矢量。所以 R (A+E1) 的特征向量。

2.5 随机浏览模型

上面对于PageRank的定义另一个直觉基础来自于图上的随机游走。简化版本对应网络图上随机游走的静止概率。直觉地,可以想成是随机漫步。随机浏览(random surfer)随机地点击一系列的链接。然而,如果一个真实的网络用户一旦进入一组网页的循环,用户不可能一直停留在循环中。用户会跳到其他页面。额外的因子E可以认为是这种行为的模拟:用户阶段性地“觉得无聊”而跳到具有E的概率分布的页面集合中。

到目前为止,我们把E当作用户定义的参数。在大多测试中,我们设E为一个固定值 α 。然而,在第六节,我们会展示不同的E能生成的不同的“定制”的页面排名。

2.6 计算PageRank

对于PageRank的计算非常直接如果我们忽略规模的问题的话。S是一个任意网页的矢量。那么PageRank计算如下:

R0S

loop:

Ri+1ARi

d||Ri||1||Ri+1||1

Ri+1Ri+1+dE

δ||Ri+1Ri||1

whileδ>ϵ

注意到d因子增加收敛速度,保持 ||R||1 。一个可选的规范化方式是给R乘以合适的因子。对于d的使用对E有比较小的影响。

2.7 垂悬链接

这个模型的一个问题是垂悬链接。垂悬链接是

  • 4
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值