一个复习笔记。
WEB搜索
更注重准确性和全面性,相关性度量有多方面考虑因素(时效、广告等)
基础
【重复文档处理】
相似性计算:搭叠集合;Jaccard系数;素描
素描:把文档的所有搭叠映射到2^m空间,随机置换洗牌,取最小值的搭叠,比较两个文档是否相等
WEB采集
爬虫,bfs,队列存放目标,集合存放路径
过程:采集,解析文档,重复性判断,url处理和保存
链接分析
web图,出度入度,邻接表,
锚文本是对Url的描述,指出的链接是对page的认可。锚文本能用来描述url。
pagerank,为web图每一个节点赋值0-1,根据出入度,定义为访问概率,随机游走,deadend时跳转。
Markov链,转移概率矩阵,从状态i到j的条件转移概率,所有I的出链概率和为1
hub和Authority
文档处理
倒排索引
【词典】存于内存,按字母排序
文档解析:预处理,文档编码的处理,文档单位的处理
词条化:给文档分词,生成词条-文档对
去除停用词:比如文档频率很高但没什么意思的词。建立停用词表。实际不用
归一化:语言学预处理,使多个词条归纳为等价类
词形归并,词干还原
排序:按首字母排序,合并词项-文档对,生成词典,记录文档频率df(倒排表长度)
【倒排表】存于磁盘,按ID排序
使用单链表或可变长数组存储
使用跳表的快速合并算法,加速合并多个倒排记录,只对AND查询有用
二元词索引:扩展二元词NXXXN,用于处理短语。不实用
位置信息索引:记录包括文档ID+位置信息
混合索引:对有些短语使用二元词,对有些短语使用位置索引
索引构建
硬件基础:访问内存快,磁盘寻道慢,按块访问快。
【外部排序算法】:词条化后词项文档对太大&