PageRank论文翻译

爱达堡

于 2024-04-10 22:56:59 发布

阅读量1.2k

点赞数 30

分类专栏：深度学习原创论文阅读文章标签：论文阅读知识图谱深度学习

本文链接：https://blog.csdn.net/m0_51974705/article/details/137614851

版权

原创同时被 3 个专栏收录

50 篇文章 0 订阅

订阅专栏

深度学习

21 篇文章 0 订阅

订阅专栏

论文阅读

21 篇文章 0 订阅

订阅专栏

The PageRank Citation Ranking: Bringing Order to the Web

PageRank 引文排名：让网络秩序井然

Abstract

网页的重要性本质上是一个主观问题，取决于读者的兴趣、知识和态度。但关于网页的相对重要性，仍然有很多可以客观地说的地方。本文介绍了PageRank，一种客观、机械地对网页进行评级的方法，有效地衡量人们对网页的兴趣和关注度。我们将 PageRank 与理想化的随机网络冲浪者进行比较。我们展示了如何有效地计算大量页面的 PageRank。并且，我们还将展示如何将 PageRank 应用到搜索和用户导航中。

1 Introduction and Motivation

万维网给信息检索带来了许多新的挑战。它非常大而且异构。目前估计有超过 1.5 亿个网页的翻倍寿命不到一年。更重要的是，网页极其多样化，从“乔今天午餐吃什么？”到“乔今天午餐吃什么？” 有关信息检索的期刊。除了这些重大挑战之外，网络搜索引擎还必须应对缺乏经验的用户和旨在操纵搜索引擎排名功能的页面。然而，与“平面”文档集合不同，万维网是超文本，并且在网页文本之上提供了大量的辅助信息，例如链接结构和链接文本。在本文中，我们利用网络的链接结构来生成每个网页的全局“重要性”排名。这种排名称为 PageRank，可帮助搜索引擎和用户快速了解万维网的巨大异质性。

1.1 Diversity of Web Pages

尽管已经有大量关于学术引文分析的文献，但网页和学术出版物之间存在许多显着差异。与经过严格审查的学术论文不同，网页的激增无需质量控制或出版成本。通过一个简单的程序，可以轻松创建大量页面，人为地增加引用计数。由于网络环境包含相互竞争的营利企业，吸引注意力的策略会随着搜索引擎算法的变化而变化。因此，任何计算网页可复制特征的评估策略都容易受到操纵。此外，学术论文是明确定义的工作单元，在质量和引用数量以及其目的（扩展知识体系）方面大致相似。网页在质量、用法、引用和长度方面的差异比学术论文大得多。随机发布的存档消息询问了有关 IBM 计算机的晦涩问题，这与 IBM 主页有很大不同。关于手机使用对驾驶员注意力影响的研究文章与特定手机提供商的广告有很大不同。用户体验到的平均网页质量高于普通网页的质量。这是因为创建和发布网页的简单性导致用户不太可能阅读大部分低质量的网页。

网页可以通过许多轴来区分。在本文中，我们主要讨论一个网页总体相对重要性的近似值。

1.2 PageRank

为了衡量网页的相对重要性，我们提出了 PageRank，一种基于网络图计算每个网页排名的方法。 PageRank 在搜索、浏览和流量估计方面都有应用。

第 2 节给出了 PageRank 的数学描述并提供了一些直观的论证。在第 3 节中，我们展示了如何有效计算多达 5.18 亿个超链接的 PageRank。为了测试 PageRank 在搜索中的实用性，我们构建了一个名为 Google 的网络搜索引擎（第 5 节）。我们还在第 7.3 节中演示了如何使用 PageRank 作为浏览辅助工具。

2 A Ranking for Every Page on the Web

2.1 Related Work

关于学术引文分析已有大量工作[Gar95]。Goffman [Gof71] 发表了一个有趣的理论，说明科学界的信息流动如何成为一种流行过程。

最近有大量关于如何利用大型超文本系统（例如网络）的链接结构的活动。 Pitkow 最近完成了他的博士论文“表征万维网生态”[Pit97，PPR96]，其中包含各种基于链接的分析。Weiss 讨论了考虑链接结构的聚类方法[WVS+96]。Spertus [ Spe97] 讨论了可以从各种应用的链接结构中获得的信息。良好的可视化需要在超文本上添加结构，并且在 [MFH95, MF95] 中进行了讨论。最近，Kleinberg [Kle98] 开发了一个有趣的网络模型作为中心和权威机构，基于网络共被引矩阵的特征向量计算。

最后，图书馆社区对网络上“质量”的含义产生了一些兴趣[Til]。

显然，尝试将标准引文分析技术应用于网络的超文本引文结构。人们可以简单地将每个链接视为学术引文。因此，像 http://www.yahoo.com/ 这样的主要页面将有数以万计的反向链接（或引用）指向它。

雅虎主页有如此多的反向链接这一事实通常意味着它非常重要。事实上，许多网络搜索引擎都使用反向链接计数作为一种方法，试图使数据库偏向于更高质量或更重要的页面。然而，简单的反向链接计数在网络上存在许多问题。其中一些问题与正常学术引文数据库中不存在的网络特征有关。

2.2 Link Structure of the Web

虽然估计有所不同，但当前的可爬行网络图大约有 1.5 亿个节点（页面）和 17 亿条边（链接）。每个页面都有一定数量的前向链接（outedges）和反向链接（inedges）（参见图1）。我们永远无法知道是否找到了特定页面的所有反向链接，但如果我们下载了该页面，我们就知道当时它的所有前向链接。

网页的反向链接数量差异很大。例如，在我们当前的数据库中，Netscape 主页有 62,804 个反向链接，而大多数页面只有几个反向链接。一般来说，高度链接的页面比链接很少的页面更“重要”。简单的引用计数已被用来推测未来的诺贝尔奖获得者[San95]。 PageRank 提供了一种更复杂的方法来进行引用计数。

PageRank 之所以有趣，是因为在很多情况下，简单的引用计数并不符合我们常识中的重要性概念。例如，如果一个网页有一个雅虎主页之外的链接，它可能只是一个链接，但它是一个非常重要的链接。该页面的排名应该高于许多具有更多链接但来自不起眼地方的页面。 PageRank 试图了解仅从链接结构中可以获得多好的“重要性”近似值。

2.3 Propagation of Ranking Through Links

基于上面的讨论，我们对PageRank给出如下直观的描述：如果一个页面的反向链接的排名总和较高，则该页面的排名较高。这涵盖了页面具有许多反向链接和页面具有一些高排名反向链接的情况。

2.4 Definition of PageRank

设 $u$ 是一个网页。然后设 $F_u$ 为 $u$ 指向的页面集合， $B_u$ 为指向 $u$ 的页面集合。令 $N_u = |F_u|$ 是来自 $u$ 的链接数量，让 $c$ 成为用于标准化的因子（以便所有网页的总排名恒定）。

我们首先定义一个简单的排名 $R$ ，它是 PageRank 的稍微简化版本：

$R(u)=c\sum_{v\in B_u}\frac{R(v)}{N_v}$

这形式化了上一节中的直觉。请注意，页面的排名在其前向链接之间均匀分配，以贡献于它们指向的页面的排名。请注意 $c < 1$ 因为有许多页面没有前向链接，并且它们的权重从系统中丢失（参见第 2.7 节）。该方程是递归的，但可以通过从任意一组秩开始并迭代计算直到收敛来计算它。图 2 演示了排名从一对页面到另一对页面的传播。图 3 显示了一组页面的一致稳态解决方案。

换句话说，令 $A$ 为方阵，其行和列对应于网页。如果从 $u$ 到 $v$ 存在边，则设 $A_{u,v}=1/N_u$ ，否则设 $A_{u,v}=0$ 。如果我们将 $R$ 视为网页上的向量，则有 $R = c A R$ 。因此， $R$ 是 $A$ 的特征向量，其特征值为 $c$ 。事实上，我们想要 $A$ 的主特征向量。它可以通过将 $A$ 重复应用于任何非简并起始向量来计算。

这个简化的排名功能有一个小问题。考虑两个互相指向但不指向其他页面的网页。假设有一些网页指向其中之一。然后，在迭代期间，该循环将累积排名但从不分配任何排名（因为没有出边）。该循环形成了一种陷阱，我们称之为等级接收器。

为了克服排名下沉的问题，我们引入了排名源：

定义 1 令 $E (u)$ 为网页上对应于排名源的某个向量。然后，一组网页的 PageRank 是对满足以下条件的网页的赋值 $R^{'}$ ：

$R'(u)=c\sum_{v\in B_u}\frac{R'(v)}{N_v}+cE(u)\quad(1)$

使得 $c$ 最大化且 $R'||_1=1$ ( $R'||_1$ 表示 $R^{'}$ 的 $L_1$ 范数)。

其中 $E (u)$ 是网页上对应于排名源的某个向量（参见第 6 节）。请注意，如果 $E$ 均为正数，则必须减小 $c$ 才能平衡方程。因此，该技术对应于衰减因子。在矩阵表示法中，我们有 $R^{'} = c (A R^{'} + E)$ 。由于 $R'||_1=1$ ，我们可以将其重写为 $R^{'} = c (A + E x 1) R^{'}$ ，其中 1 是由全 1 组成的向量。因此， $R^{'}$ 是 $(A+E\times 1)$ 的特征向量。

2.5 Random Surfer Model

上面的 PageRank 定义在图上的随机游走中还有另一个直观的基础。简化版本对应于网络图上随机游走的站立概率分布。直观上，这可以被认为是对“随机冲浪者”的行为进行建模。 “随机冲浪者”只是不断地随机点击连续的链接。然而，如果真正的网络冲浪者曾经进入网页的小循环，则该冲浪者不太可能永远继续在该循环中。相反，冲浪者会跳转到其他页面。附加因素 $E$ 可以被视为对这种行为进行建模的一种方式：冲浪者周期性地“感到无聊”，并跳转到根据 $E$ 的分布选择的随机页面。

到目前为止，我们将 $E$ 作为用户定义的参数。在大多数测试中，我们让 $E$ 在所有网页上统一，值为 $\alpha$ 。然而，在第 6 节中，我们展示了不同的 $E$ 值如何生成“自定义”页面排名。

2.6 Computing PageRank

如果我们忽略规模问题，PageRank 的计算相当简单。令 $S$ 几乎是网页上的任何向量（例如 $E$ ）。那么 PageRank 可以计算如下：

$\begin{matrix}R_0&\leftarrow&S\\\text{loop}:\\R_{i+1}&\leftarrow&AR_i\\d&\leftarrow&||R_i||_1-||R_{i+1}||_1\\R_{i+1}&\leftarrow&R_{i+1}+dE\\\delta&\leftarrow&||R_{i+1}-R_i||_1\\\text{while}\delta>\epsilon\end{matrix}$

请注意， $d$ 因子提高了收敛速度并保持 $R||_1$ 。另一种标准化是将 $R$ 乘以适当的因子。 $d$ 的使用可能对 $E$ 的影响影响很小。

2.7 Dangling Links

该模型的一个问题是悬空链接。悬空链接只是指向任何没有传出链接的页面的链接。它们影响模型，因为不清楚它们的权重应该分布在哪里，而且它们的数量很大。通常，这些悬空链接只是我们尚未下载的页面，因为很难对整个网络进行采样（在我们当前下载的 2400 万个页面中，有 5100 万个 URL 尚未下载，因此是悬空的）。因为悬空链接不会直接影响任何其他页面的排名，所以我们只需将它们从系统中删除，直到计算出所有 PageRank。计算完所有 PageRank 后，可以将它们添加回来，而不会对事情产生太大影响。请注意，同一页面上其他链接的规范化作为被删除的链接会略有变化，但这不会产生很大的影响。

3 Implementation

作为斯坦福 WebBase 项目 [PB98] 的一部分，我们构建了一个完整的爬行和索引系统，当前存储库包含 2400 万个网页。任何网络搜索者都需要保留一个 URL 数据库，以便它可以发现网络上的所有 URL。要实现 PageRank，网络爬虫只需在爬行时构建链接索引即可。虽然这是一项简单的任务，但由于涉及的工作量巨大，因此并非易事。例如，要在大约五天内索引我们当前的 2400 万页面数据库，我们需要每秒处理大约 50 个网页。由于平均页面上大约有 11 个链接（取决于您算作链接的内容），我们每秒需要处理 550 个链接。此外，我们的数据库包含 2400 万个页面，引用了超过 7500 万个唯一 URL，每个链接都必须与这些 URL 进行比较。

我们花费了大量的时间来使系统能够在面对许多存在严重且错综复杂的缺陷的网络工件时具有弹性。存在无限大的站点、页面，甚至 URL。很大一部分网页的 HTML 不正确，导致解析器设计变得困难。混乱的启发式方法用于帮助爬行过程。例如，我们不会抓取包含/cgi-bin/的URL。当然，不可能获得“整个网络”的正确样本，因为它总是在变化。网站有时会关闭，有些人决定不允许他们的网站被索引。尽管如此，我们相信我们有一个合理的理由公共访问网络的实际链接结构的表示。

3.1 PageRank Implementation

我们将每个 URL 转换为唯一的整数，并使用整数 ID 将每个超链接存储在数据库中来识别页面。我们的实施细节在[PB98]中。一般来说，我们通过以下方式实现 PageRank。首先，我们按 Parent ID 对链接结构进行排序。然后，出于上述原因，从链接数据库中删除悬空链接（几次迭代删除了绝大多数悬空链接）。我们需要对军衔进行初步分配。该分配可以通过多种策略之一来完成。如果要迭代直到收敛，一般来说初始值不会影响最终值，只会影响收敛速度。但我们可以通过选择一个好的初始分配来加速收敛。我们相信，仔细选择初始分配和少量有限的迭代可能会带来出色或改进的性能。

为每个页面的权重分配内存。由于我们使用每个 4 字节的单精度浮点值，因此我们的 7500 万个 URL 总计为 300 兆字节。如果没有足够的 RAM 来容纳所有权重，则可以进行多次传递（我们的实现使用一半的内存和两次传递）。当前时间步的权重保存在内存中，之前的权重在磁盘上线性访问。此外，对链接数据库 A 的所有访问都是线性的，因为它是排序的。因此，A也可以保留在磁盘上。尽管这些数据结构非常大，但线性磁盘访问允许每次迭代在典型工作站上大约 6 分钟内完成。权重收敛后，我们将悬空链接添加回来并重新计算排名。请注意，重新添加悬挂链接后，我们需要迭代删除悬挂链接所需的次数。否则，某些悬空链接的权重将为零。整个过程在目前的实施中大约需要五个小时。通过不太严格的收敛标准和更多的优化，计算速度可能会快得多。或者，可以使用更有效的估计特征向量的技术来提高性能。但是，应该注意的是，与构建全文索引所需的成本相比，计算 PageRank 所需的成本是微不足道的。

4 Convergence Properties

从图 4 中的图表可以看出，3.22 亿个链接数据库上的 PageRank 在大约 52 次迭代后收敛到合理的容差。一半数据的收敛大约需要 45 次迭代。该图表明，即使对于非常大的集合，PageRank 也能很好地缩放，因为缩放因子与 logn 大致呈线性关系。

PageRank 计算快速收敛这一事实的一个有趣的后果是，网络是一个类似扩展器的图。为了更好地理解这一点，我们简要概述图上的随机游走理论；请参阅 Motwani-Raghavan [MR95] 了解更多详细信息。图上的随机游走是一个随机过程，在任何给定的时间步长，我们都位于图的特定节点，并随机均匀地选择出边来确定下一个时间步长要访问的节点。如果节点 $S$ 的每个（不太大）子集都有一个比某个因子 $\alpha \times |S|$ 更大的邻域（可通过从 $S$ 中的节点发出的出边访问的顶点集），则该图被称为扩展器; 这里， $\alpha$ 称为扩展因子。当且仅当最大特征值充分大于第二大特征值时，图才具有良好的扩展因子。如果图上的随机游走快速（图大小的时间对数）收敛到图中节点集的极限分布，则称其为快速混合。当且仅当图是扩展器或具有特征值分离时，随机游走才会在图上快速混合。

为了将所有这些与 PageRank 计算联系起来，请注意，它本质上是确定 Web 图上随机游走的极限分布。节点的重要性排序本质上是在足够长的时间后随机游走在该节点的极限概率。 PageRank 计算在对数时间内终止的事实相当于说随机游走正在快速混合或基础图具有良好的扩展因子。扩展图具有许多理想的属性，我们将来可以在涉及 Web 图的计算中利用这些属性。

5 Searching with PageRank

PageRank 的一个主要应用是搜索。我们已经实现了两个使用 PageRank 的搜索引擎。我们将讨论的第一个是一个简单的基于标题的搜索引擎。第二个搜索引擎是称为 Google [BP] 的全文搜索引擎。 Google 利用多种因素对搜索结果进行排名，包括标准 IR 测量、邻近度、锚文本（指向网页的链接文本）和 PageRank。虽然对 PageRank 优势的全面用户研究超出了本文的范围，但我们进行了一些比较实验并在本文中提供了一些示例结果。

PageRank 的好处对于未指定的查询来说是最大的。例如，对“斯坦福大学”的查询可能会在传统搜索引擎上返回任意数量的提及斯坦福大学的网页（例如出版物列表），但是使用PageRank，首先列出大学主页。

5.1 Title Search

为了测试 PageRank 对搜索的有用性，我们实现了一个仅使用 1600 万个网页标题的搜索引擎。为了回答查询，搜索引擎会查找标题包含所有查询词的所有网页。然后它按 PageRank 对结果进行排序。该搜索引擎实施起来非常简单且便宜。在非正式测试中，它的效果非常好。如图 6 所示，搜索“大学”会生成顶尖大学的列表。该图显示了我们的 MultiQuery 系统，该系统允许用户同时查询两个搜索引擎。左边的搜索引擎是我们基于PageRank 的标题搜索引擎。显示的条形图和百分比是实际 PageRank 的日志，首页标准化为 100%，而不是本文其他地方使用的百分位数。右边的搜索引擎是Altavista。您可以看到 Altavista 返回与查询“大学”匹配的随机网页，并且是服务器的根页面（Altavista 似乎使用 URL 长度作为质量启发）。

5.2 Rank Merging

基于标题的PageRank系统之所以如此有效，是因为标题匹配保证了高精度，而PageRank保证了高质量。当在网络上匹配“大学”这样的查询时，召回率并不是很重要，因为用户可以看到的内容远远不止这些。对于召回率更重要的更具体的搜索，传统的全文信息检索分数和 PageRank 应该结合起来。我们的谷歌系统进行这种类型的排名合并。众所周知，排名合并是一个非常困难的问题，我们需要花费相当多的额外努力才能对这些类型的查询进行合理的评估。然而，我们确实相信在这些查询中使用 PageRank 作为一个因素是非常有益的。

5.3 Some Sample Results

我们对 Google（一个使用 PageRank 的全文搜索引擎）进行了大量实验。虽然全面的用户研究超出了本文的范围，但我们在附录 A 中提供了一个示例查询。对于更多查询，我们鼓励读者自己测试 Google [BP]。

表 1 显示了基于 PageRank 的前 15 个页面。此特定列表生成于 1996 年 7 月。在最近的 PageRank 计算中，Microsoft 刚刚击败 Netscape，获得最高的 PageRank。

5.4 Common Case

PageRank 的设计目标之一是很好地处理常见的查询情况。例如，用户搜索“wolverine”，记得学生使用的密歇根大学系统的所有管理功能都被称为带有狼獾的东西。我们基于 PageRank 的标题搜索系统返回的第一个结果是“Wolverine Access”。这是明智的，因为所有学生都定期使用 Wolverine Access 系统，并且随机用户很可能在查询“wolverine”的情况下寻找它。 Wolverine Access 站点是一个很好的常见案例，这一事实并未包含在页面的 HTML 中。即使有一种方法可以在页面内定义这种形式的良好元信息，也会有问题，因为页面作者不能相信这种评估。许多网页作者会简单地声称他们的网页是网络上最好的和最常用的。

值得注意的是，查找包含大量有关狼獾信息的站点的目标与查找常见狼獾站点的任务截然不同。有一个有趣的系统 [Mar97]，它试图通过网络的链接结构传播文本匹配分数来查找详细讨论某个主题的网站。然后它尝试返回最中心路径上的页面。这会为“flower”等查询带来良好的结果；系统将从详细处理花卉主题的网站返回良好的导航页面。与常见案例方法相比，常见案例方法可能只是返回一个常用的商业网站，该网站除了如何购买鲜花之外几乎没有其他信息。我们认为这两项任务都很重要，通用网络搜索引擎应该自动返回满足这两项任务需求的结果。在本文中，我们仅关注常见案例方法。

5.5 Subcomponents of Common Case

考虑一下 PageRank 可以帮助代表哪些常见案例场景是有启发性的。除了具有高使用率的页面（例如 Wolverine Access 引用）之外，PageRank 还可以代表权威或信任的协作概念。例如，用户可能更喜欢新闻报道，只是因为它是直接从《纽约时报》主页链接的。当然，这样的故事将获得相当高的 PageRank，仅仅因为它被一个非常重要的页面提及。这似乎捕获了一种协作信任，因为如果一个页面是由值得信赖或权威的来源提及的，那么它就更有可能是值得信赖或权威的。同样，质量或重要性似乎符合这种循环定义。

6 Personalized PageRank

PageRank 计算的一个重要组成部分是 $E$ - 网页上的向量，用作排名来源，以弥补排名下降，例如没有出边的循环（请参见第 2.4 节）。然而，除了解决排名下沉的问题之外， $E$ 被证明是调整页面排名的有力参数。直观上， $E$ 向量对应于随机冲浪者周期性跳转到的网页的分布。如下所示，它可用于提供网络的广泛总体视图或针对特定个人的集中和个性化视图。

我们已经使用 $E$ 向量进行了大多数实验，该向量在所有网页上都是一致的， $E||_1= 0.15$ 。这对应于随机冲浪者周期性地跳转到随机网页。对于 $E$ 来说，这是一个非常民主的选择，因为所有网页都因其存在而受到重视。尽管这项技术非常成功，但它有一个重要的问题。一些具有许多相关链接的网页获得过高的排名。其中的例子包括版权警告、免责声明和高度链接的邮件列表档案。

另一个极端是让 $E$ 完全由一个网页组成。我们测试了两个这样的 $E$ ：Netscape 主页和著名计算机科学家 John McCarthy 的主页。对于 Netscape 主页，我们尝试从以下位置生成页面排名：将 Netscape 设置为默认主页的新手用户的视角。以约翰·麦卡锡的主页为例，我们希望从个人的角度计算页面排名，该个人根据其主页上的链接为我们提供了大量上下文信息。

在这两种情况下，上述邮件列表问题都没有发生。而且，在这两种情况下，各自的主页都获得了最高的 PageRank，其次是其直接链接。从那时起，差距就缩小了。在表 2 中，我们显示了各种不同页面的页面排名百分位数。与计算机科学相关的页面的麦卡锡排名高于 Netscape 排名，并且与斯坦福大学计算机科学相关的页面的麦卡锡排名要高得多。例如，另一位斯坦福大学计算机科学系教员的网页超过 6 麦卡锡排名上的百分位数更高。请注意，页面排名显示为百分位数。这具有压缩 PageRank 范围顶部的巨大差异的效果。

这种个性化页面排名可以有多种应用，包括个人搜索引擎。这些搜索引擎可以通过给定简单输入（例如书签或主页）来有效猜测用户的大部分兴趣，从而为用户节省大量麻烦。我们在附录 A 中通过“Mitchell”查询展示了一个示例。在此示例中，我们演示了虽然网络上有很多名为 Mitchell 的人，但排名第一的结果是 John McCarthy 的同事 John Mitchell 的主页。

6.1 Manipulation by Commercial Interests

这些类型的个性化 PageRank 实际上不受商业利益的操纵。一个页面要获得高PageRank，它必须说服一个重要页面或许多不重要的页面链接到它。最坏的情况是，您可以通过在重要网站上购买广告（链接）的形式进行操纵。但是，这似乎得到了很好的控制，因为它需要花钱。这种对操纵的免疫力是一个极其重要的特性。这种商业操纵给搜索引擎带来了很大的麻烦，并且使得本来很好的功能很难实现。例如，文档的快速更新是一个非常理想的功能，但它被想要操纵搜索引擎结果的人滥用。

统一 $E$ 和单页面 $E$ 这两个极端之间的折衷方案是让E由所有Web服务器的所有根级页面组成。请注意，这将允许对 PageRank 进行一些操作。希望操纵该系统的人可以简单地创建大量指向特定站点的根级服务器。

7 Applications

7.1 Estimating Web Traffic

因为 PageRank 大致对应于随机网络冲浪者（参见第 2.5 节），所以了解 PageRank 如何对应于实际使用情况是很有趣的。我们使用 NLANR [NLA] 代理缓存的网页访问计数，并将其与 PageRank 进行比较。 NLANR 数据来自几个月内的多个国家代理缓存，包含 11,817,665 个唯一 URL，其中 Altavista 的点击数最高，达到 638,657 个。缓存数据和我们的 7500 万个 URL 数据库的交集中有 260 万个页面。由于多种不同的原因，对这些数据集进行分析比较是极其困难的。缓存访问数据中的许多 URL 是人们在免费电子邮件服务上阅读其个人邮件的 URL。重复的服务器名称和页面名称是一个严重的问题。 PageRank 数据和使用数据均存在不完整性和偏差问题。然而，我们确实在数据中看到了一些有趣的趋势。缓存数据中色情网站的使用率似乎很高，但这些网站的 PageRank 普遍较低。我们认为这是因为人们不想从自己的网页链接到色情网站。使用这种寻找 PageRank 和使用情况之间差异的技术，可能会找到人们喜欢查看但不想在网页上提及的内容。有些网站的使用率很高，但 PageRank 较低，例如 netscape.yahoo.com。我们相信可能存在一个重要的反向链接，只是从我们的数据库中省略了（我们只有网络的部分链接结构）。可以使用使用数据作为 PageRank 的起始向量，然后迭代 PageRank 几次。这可能可以填补使用数据中的漏洞。无论如何，这些类型的比较是未来研究的一个有趣的话题。

7.2 PageRank as Backlink Predictor

PageRank 的一个理由是它是反向链接的预测因子。在[CGMP98]中我们探讨了如何高效地爬取网络的问题，尝试首先爬取更好的文档。我们在斯坦福大学网络的测试中发现，PageRank 比引用计数本身更能预测未来的引用计数。

该实验假设系统一开始只有一个 URL，没有其他信息，目标是尝试以尽可能接近最佳的顺序抓取页面。最佳顺序是根据评估函数完全按照页面的排名顺序来抓取页面。就此处而言，评估函数只是在给出完整信息的情况下的引用次数。问题是，只有在爬取完所有文档后，才能获得用于计算评估函数的所有信息。事实证明，使用不完整的数据，PageRank 是比已知引用数更有效的爬行排序方式。换句话说，即使衡量指标是引用次数，PageRank 也是比引用计数更好的预测指标！对此的解释似乎是，PageRank 避免了引用计数陷入困境的局部最大值。例如，引用计数往往陷入斯坦福大学计算机科学网页等本地集合中，需要很长时间才能分支并找到高引用率其他区域的页面。 PageRank 很快发现斯坦福主页很重要，并优先考虑其子页面，从而实现高效、广泛的搜索。

PageRank 预测引用计数的能力是使用 PageRank 的有力理由。由于完全映射网络的引用结构非常困难，因此 PageRank 甚至可能是比引用计数本身更好的引用计数近似值。

7.3 User Navigation: The PageRank Proxy

PageRank 的最初目标是一种对反向链接进行排序的方法，因此如果文档有大量反向链接，则可以首先显示“最佳”反向链接。我们已经实施了这样一个系统。事实证明，在尝试了解您的竞争对手时，按 PageRank 排序的反向链接视图可能非常有趣。例如，运营新闻网站的人总是希望跟踪竞争对手设法获得的任何重要反向链接。此外，PageRank 可以帮助用户确定网站是否值得信赖。例如，用户可能倾向于信任直接从斯坦福大学主页引用的信息。

8 Conclusion

在本文中，我们承担了一项大胆的任务，将万维网上的每个页面压缩为一个数字，即 PageRank。 PageRank 是所有网页的全球排名，无论其内容如何，仅基于网页在网络图形结构中的位置。

使用 PageRank，我们能够对搜索结果进行排序，以便优先考虑更重要和更重要的网页。在实验中，事实证明这可以为用户提供更高质量的搜索结果。 PageRank 背后的直觉是，它使用网页本身的外部信息 - 它们的反向链接，这提供了一种同行评审。此外，来自“重要”页面的反向链接比来自普通页面的反向链接更重要。这包含在 PageRank 的递归定义中（第 2.4 节）。

PageRank 可用于分离出一小组可以回答大多数查询的常用文档。仅当小型数据库不足以回答查询时才需要查阅完整数据库。最后，PageRank 可能是帮助找到代表性页面以供聚类中心显示的好方法。

除了搜索之外，我们还发现了许多 PageRank 的应用，其中包括流量估算和用户导航。此外，我们还可以生成个性化的 PageRank，从而从特定角度创建 Web 视图。

总体而言，我们对 PageRank 的实验表明，Web 图的结构对于各种信息检索任务非常有用。

论文链接：

https://web.mit.edu/6.033/2004/wwwdocs/papers/page98pagerank.pdf

爱达堡

关注

30
点赞
踩
13

收藏

觉得还不错? 一键收藏
打赏
0
评论
PageRank论文翻译

网页的重要性本质上是一个主观问题，取决于读者的兴趣、知识和态度。但关于网页的相对重要性，仍然有很多可以客观地说的地方。本文介绍了PageRank，一种客观、机械地对网页进行评级的方法，有效地衡量人们对网页的兴趣和关注度。我们将 PageRank 与理想化的随机网络冲浪者进行比较。我们展示了如何有效地计算大量页面的 PageRank。并且，我们还将展示如何将 PageRank 应用到搜索和用户导航中。
复制链接

扫一扫