大规模超文本网络搜索引擎解析 [ The Anatomy of a Large-Scale Hypertextual Web Search Engine ]

The Anatomy of a Large-Scale  Hypertextual Web Search Engine
                                     Sergey Brin and Lawrence Page
                                    {sergey, page}@cs.stanford.edu
Computer Science Department, Stanford University, Stanford, CA 94305

摘要

1. 引言

1.1 网页搜索引擎的崛起:1994 - 2000

1.2 谷歌:与网络共成长

1.3 设计目标

1.3.1 提升搜索质量

1.3.2 学术搜索引擎的研究

2. 系统特色 

2.1 PageRank: 让网络变得有序

2.1.1 PageRank 计算的描述

2.1.2 直观的理据

2.2 锚文本

2.3 其它特色

3. 相关工作

3.1 信息检索

3.2 网络与传统文本集合的区别

4. 系统剖析

4.1 谷歌架构概览

4.2 主要的数据结构

4.2.1 大文件 (BigFiles)

4.2.2 资源库 (Repository)

4.2.3 文件索引

4.2.4 词汇索引

4.2.5 命中列表

4.2.6 正向索引

4.2.7 倒排索引

4.3 网页爬虫

4.4 网页索引

4.4.1 解析

4.4.2 分桶建立文件索引

4.4.3 排序

4.5 搜索

4.5.1 排名系统

4.5.2 反馈

5. 结果与性能

5.1 存储需求

5.2 系统性能

5.3 搜索性能

6. 结论

6.1 将来的工作

6.2 高质量搜索

6.3 可扩展的架构

6.4 一个研究工作


  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值