信息检索概论总结

这篇博客概述了信息检索的主要方面,包括WEB搜索的基础和采集,文档处理中的倒排索引和索引压缩技术,检索算法如布尔查询和向量空间模型,以及检索评价方法。此外,还涉及了相关反馈、查询扩展、文本分类和聚类算法。
摘要由CSDN通过智能技术生成

一个复习笔记。

WEB搜索

更注重准确性和全面性,相关性度量有多方面考虑因素(时效、广告等)

基础

【重复文档处理】
相似性计算:搭叠集合;Jaccard系数;素描
素描:把文档的所有搭叠映射到2^m空间,随机置换洗牌,取最小值的搭叠,比较两个文档是否相等

WEB采集

爬虫,bfs,队列存放目标,集合存放路径
过程:采集,解析文档,重复性判断,url处理和保存

链接分析

web图,出度入度,邻接表,
锚文本是对Url的描述,指出的链接是对page的认可。锚文本能用来描述url。
pagerank,为web图每一个节点赋值0-1,根据出入度,定义为访问概率,随机游走,deadend时跳转。
Markov链,转移概率矩阵,从状态i到j的条件转移概率,所有I的出链概率和为1
hub和Authority

文档处理

倒排索引

【词典】存于内存,按字母排序
文档解析:预处理,文档编码的处理,文档单位的处理
词条化:给文档分词,生成词条-文档对
去除停用词:比如文档频率很高但没什么意思的词。建立停用词表。实际不用
归一化:语言学预处理,使多个词条归纳为等价类
词形归并,词干还原
排序:按首字母排序,合并词项-文档对,生成词典,记录文档频率df(倒排表长度)
【倒排表】存于磁盘,按ID排序
使用单链表或可变长数组存储
使用跳表的快速合并算法,加速合并多个倒排记录,只对AND查询有用
二元词索引:扩展二元词NXXXN,用于处理短语。不实用
位置信息索引:记录包括文档ID+位置信息
混合索引:对有些短语使用二元词,对有些短语使用位置索引

索引构建

硬件基础:访问内存快,磁盘寻道慢,按块访问快。
【外部排序算法】:词条化后词项文档对太大&

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值