作者:LogM
本文原载于 https://segmentfault.com/u/logm/articles,不允许转载~
本文是《这就是搜索引擎》的读书笔记
1. 概述
1.2 搜索引擎技术发展史
- 第一代:文本检索。关键词与网页内容的相关程度。
- 第二代:链接分析。PageRank。
- 第三代:用户中心。理解用户需求。
2. 爬虫
2.1 通用爬虫框架
2.3 爬虫质量的评价标准
- 抓取网页覆盖率、抓取网页时新性、抓取网页重要性
- 为了同时满足上述3个标准,google用了多套不同的爬虫,一些关注时新性,一些关注覆盖率。
2.4 抓取策略
- 宽度优先遍历:暴力但有效
- 非完全PageRank:因为PageRank需要拿到所有的页面计算才是准确的,爬虫抓取的时候没有看到所有页面,所以叫"非完全"
- OPIC:改进PageRank,实时计算
- 大站优先
2.5 更新策略
- 历史参考策略:历史上变动比较快的,抓取频繁一点,一般用泊松过程建模
- 用户体验策略:保存网页的多个历史版本,查看不同历史版本对用户点击的影响。所以用户点击不到的页面,即使更新快,也不用抓取。
- 聚类抽样策略:更新快的页面有一些类似的特征