The Anatomy of a Large-Scale Hypertextual Web Search Engine 大型超文本Web搜索引擎的剖析

看了一遍,很多知识点没大看懂,先放在这里~

大型超文本Web搜索引擎的剖析

摘要:在本文中,我们介绍了Google,这是大规模使用超文本中存在的结构的大型搜索引擎的原型。Google旨在有效地对Web进行爬网和编制索引,并产生比现有系统更令人满意的搜索结果。可在http://google.stanford.edu/上获得具有至少2400万页的全文和超链接数据库的原型。设计搜索引擎是一项艰巨的任务。搜索引擎索引数以千万计的网页,涉及相当数量的不同术语。他们每天都会回答数千万条查询。

尽管大型搜索引擎在网络上很重要,但对它们的学术研究却很少。此外,由于技术和网络的迅速发展,今天创建一个网络搜索引擎与三年前大不相同。

本文对我们的大型网络搜索引擎进行了深入的描述,这是迄今为止我们所知道的第一个如此详细的公开描述。

除了将传统搜索技术扩展为如此庞大的数据的问题之外,

使用超文本中存在的附加信息来产生更好的搜索结果还涉及新的技术挑战。

本文解决了有关如何构建可以利用超文本中存在的附加信息的大型系统的问题。

我们还将研究如何有效处理不受控制的超文本集合的问题,任何人都可以发布他们想要的任何东西。

关键字:万维网,搜索引擎,信息检索,PageRank,Google

  1. 简介(注意:本文有两个版本-较长的完整版和较短的印刷版。完整版可从Web和会议CD-ROM上获得。)

Web带来了信息检索的新挑战。网络上的信息量正在迅速增长,并且网络研究领域的新用户数量也越来越少。人们可能会使用其链接图来上网,通常是从高质量的人工维护索引(例如Yahoo!)开始。或使用搜索引擎。人工维护的清单有效地涵盖了热门话题,但主观,建立和维护成本高,改进缓慢且无法涵盖所有​​深奥的话题。依赖关键字匹配的自动搜索引擎通常会返回太多低质量的匹配项。更糟糕的是,一些广告商试图采取旨在误导自动搜索引擎的措施来引起人们的关注。我们已经建立了一个大型搜索引擎,可以解决现有系统的许多问题。它特别大量地使用了超文本中存在的附加结构,以提供更高质量的搜索结果。我们选择系统名称Google,因为它是googol的常见拼写或10100,非常适合我们建立超大规模搜索的目标。

    1. Web搜索引擎-扩大规模:1994年-2000年

搜索引擎技术必须进行大规模扩展以跟上Web的发展。 

1994年,最早的网络搜索引擎之一,万维网蠕虫(WWWW)[McBryan 94]拥有110,000个网页和可访问网络文档的索引。

截至1997年11月,顶级搜索引擎声称可以将200万个(WebCrawler)索引到1亿个Web文档(来自Search Engine Watch)。可以预见,到2000年,Web的综合索引将包含超过十亿个文档。 同时,搜索引擎处理的查询数量也异常增长。

1994年3月和4月,万维网蠕虫每天平均收到约1500个查询。1997年11月,Altavista声称每天处理大约2000万个查询。随着网络上用户数量的增加以及查询引擎的自动系统,到2000年,顶级搜索引擎每天可能会处理数亿个查询。

我们系统的目标是解决许多通过将搜索引擎技术扩展到如此众多的数量而引入的质量和可扩展性问题。

    1. Google:通过网络进行扩展

创建一个搜索引擎,甚至可以扩展到当今的网络,这带来了许多挑战。需要快速爬网技术来收集Web文档并使其保持最新状态。必须有效地使用存储空间来存储索引以及文档本身(可选)。 索引系统必须有效地处理数百GB的数据。 查询必须以每秒数百到数千的速度快速处理。

 随着Web的发展,这些任务变得越来越困难。但是,硬件性能和成本已得到显着提高,部分抵消了这一困难。但是,此进度有几个显着的例外,例如磁盘查找时间和操作系统健壮性。在设计Google时,我们既考虑了网络的增长速度,又考虑了技术变化。Google旨在很好地扩展到超大型数据集。它有效地利用了存储空间来存储索引。其数据结构经过优化,可实现快速有效的访问(请参阅第4.2节)。此外,我们希望索引和存储文本或HTML的成本最终将相对于可用的数量下降(请参阅附录B)。这将为集中式系统(如Google)带来有利的缩放属性。

1.3设计目标

1.3.1改善搜索质量

我们的主要目标是提高Web搜索引擎的质量。1994年,有些人认为,完整的搜索索引将使轻松查找任何内容成为可能。根据1994年Best of the Web Navigators的介绍,“最好的导航服务应该使在网络上几乎可以找到几乎所有内容(一旦输入所有数据)。” 但是,1997年的Web完全不同。最近使用过搜索引擎的任何人都可以很容易地证明索引的完整性不是搜索结果质量的唯一因素。“垃圾结果”通常会清除用户感兴趣的任何结果。实际上,截至1997年11月,排名前四的商业搜索引擎中只有一个能找到自己(返回前十名中的名称返回其自己的搜索页面 结果)。 造成此问题的主要原因之一是索引中的文档数量已经增加了多个数量级,但是用户查看文档的能力却没有。 人们仍然只愿意看前几十个结果。

因此,随着馆藏规模的增长,我们需要具有非常高的精度的工具(返回的相关文档数,例如前几十个结果)。 确实,我们希望我们的“相关”概念仅包括最好的文档,因为可能存在成千上万个稍有相关的文档。 即使以召回(系统能够返回的相关文档总数)为代价,这种非常高的精度也很重要。 最近有相当乐观的看法是,使用更多的超文本信息可以帮助改善搜索和其他应用程序[Marchiori 97] [Spertus 97] [Weiss 96] [Kleinberg 98]。 特别是,链接结构[页98]和链接文本为做出相关性判断和质量过滤提供了很多信息。  Google同时使用链接结构和锚文本(请参阅第2.1和2.2节)。

1.3.2学术搜索引擎

研究除了巨大的增长之外,随着时间的流逝,Web也变得越来越商业化。  1993年,有1.5%的Web服务器位于.com域。 这个数字在1997年增长到60%以上。与此同时,搜索引擎已经从学术领域迁移到商业领域。 到目前为止,大多数搜索引擎的开发都在很少公开技术细节的公司进行。 这导致搜索引擎技术在很大程度上仍然是一种妖术,并且以广告为导向(请参阅附录A)。 使用Google,我们有一个强大的目标,那就是将更多的发展和理解带入学术领域。

另一个重要的设计目标是构建合理数量的人可以实际使用的系统。 使用对于我们很重要,因为我们认为一些最有趣的研究将涉及利用可从现代Web系统获得的大量使用数据。 例如,每天执行数千万次搜索。 但是,很难获得此数据,主要是因为它被认为具有商业价值。

我们的最终设计目标是构建一种架构,以支持对大规模Web数据的新颖研究活动。 为了支持新颖的研究用途,Google以压缩形式存储了其抓取的所有实际文档。 设计Google的主要目标之一是建立一个环境,其他研究人员可以快速进入该环境,处理大量的网络内容,并产生本来很难产生的有趣结果。 在系统启动的短时间内,已经有几篇使用Google生成的数据库的论文,还有许多其他论文正在进行中。 我们的另一个目标是建立一个类似于Spacelab的环境,研究人员甚至学生都可以对我们的大型Web数据提出建议并进行有趣的实验。

  1. 系统功能

Google搜索引擎具有两项重要功能ÿ

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值