《这就是搜索引擎-核心技术详解》,我挺喜欢这本书的,深入浅出让读者明白一个搜索引擎的大体架构和各个部分的经典技术手段。
一、相关概念
(1)搜索引擎的3个核心问题:
- 理解用户真正的需求(主要第九章用户查询意图分析,再一个是情景搜索,即此时此地此人,获取用户发生查询的时间、地点、周围环境等+之前的用户模型,根本目的还是要理解当前用户当前情境下的需求)
- 判断相关性,目前主要是基于关键词的匹配,VSM+TF*IDF,BM25,LTR等,详细的在第五章中有介绍。
- 判断可信赖性,链接分析的前提是说重要的网页大多也是可信赖的网页;再一个是社会化搜索里面,考虑人之间的关系包括:社交关系(亲戚朋友),相似兴趣、社区成员和领域专家。
(2)搜索引擎的架构图
二、第二章 网络爬虫
(1)分类:
- 批量型,有明确的抓取范围和目标;
- 增量型,不断抓取并定时更新;
- 垂直型,特定行业/主题。
(2)评价指标
- 从爬虫开发者角度(速度、可扩展性、健壮、友好)
- 从用户体验角度(所抓网页的重要性、覆盖率、时新性)
针对上面所抓网页的重要性这一评价指标,书中列举的所有的抓取策略包括:宽度优先遍历策略(隐含了一些网页优先级的假设,一般粗略认为一个网页的入链越多越重要,而入链多的更容易早被宽度优先遍历到)、非完全pagerank策略、OPIC策略(Online Page Importance Computation)和大站优先策略,这些策略的目标都是有限抓取重要度高的网页。
针对时新性这一评价指标,书中介绍了3种更新策