Week 25
页面排序概览 PageRank Overview
- 搜索引擎架构
- 网络爬取(爬取网页信息,标记和进一步扩展)
- 索引构建(基于爬取网页信息之间的联系构建搜索索引)
- 搜索
- 网络爬虫:自动化,程式化的万维网浏览工具,创建浏览到的网页的副本,以备后续索引构建
- 检索一个网页
- 遍历该页面上的链接
- 将这些链接加入到即将访问检索的网页队列中
- 不断重复上述过程
- 网络爬取策略:
- 选择策略,决定下载那些页面
- 重访问策略,决定合适检查页面的修改
- 友好策略,决定如何避免网页的过载
- 平行化策略,决定如何部署分布式网络爬虫
- robots.txt:用于告知网络爬虫对网站的交流方式,确定访问限制
- 搜索索引:收集,解析和储存数据以形成快速准确的信息检索