PS: 2015.04.27------初读此书,适合基础入门,并且总结的比较到位。V1.0
第一章 为什么要关注搜索引擎
第二章 搜索引擎的基本概念与发展历史
第三章 搜索引擎性能评价
1.搜索引擎评价指标
查准率 Precision = (Retrived交Relevent)/Retrived
查全率 Recall = (Retrived交Relevent)/Relevent
注:Retrived为系统查询的结果 Relevent为正确答案集合
1>前n选精度:搜索引擎返回的结果序列前n位结果中正确答案的集合
2>前n选成功率:搜索引擎返回的结果序列的前n篇结果文档中能否有正确答案
3>首选正确答案排序倒数:第一次出现满足用户需求的文档的序号
4>平均准确率:
第四章 搜索引擎体系结构概述《推荐》
1>数据抓取子系统的主要功能与性能要求
<span style="font-size:18px;">Spider(S){
Get(s);
S1 = Resolve(S);
Spider(S1);
}<span style="font-family: Arial, Helvetica, sans-serif; background-color: rgb(255, 255, 255);"> </span></span>
2>内容索引子系统的主要功能与性能需求
主要功能:将数据抓取子系统收集到的网络数据进行保存整理,并以高效的方式供内容检索系统使用。
结构:倒排索引结构。
3>内容检索子系统的主要功能与性能需求
主要功能:利用内容索引子系统提供的索引数据和链接分析子系统提供的分析结果,按照用户的查询信息需求返回以相关度排序的的结果列表。
4>链接结构子系统的主要功能与性能需求
第五章 数据抓取子系统设计与核心算法