信息检索概论总结

最新推荐文章于 2020-11-28 19:01:11 发布

ryinlovec

最新推荐文章于 2020-11-28 19:01:11 发布

阅读量1.6k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ryinlovec/article/details/53898882

版权

这篇博客概述了信息检索的主要方面，包括WEB搜索的基础和采集，文档处理中的倒排索引和索引压缩技术，检索算法如布尔查询和向量空间模型，以及检索评价方法。此外，还涉及了相关反馈、查询扩展、文本分类和聚类算法。

摘要由CSDN通过智能技术生成

一个复习笔记。

WEB搜索

更注重准确性和全面性，相关性度量有多方面考虑因素（时效、广告等）

基础

【重复文档处理】
相似性计算：搭叠集合；Jaccard系数；素描
素描：把文档的所有搭叠映射到2^m空间，随机置换洗牌，取最小值的搭叠，比较两个文档是否相等

WEB采集

爬虫，bfs，队列存放目标，集合存放路径
过程：采集，解析文档，重复性判断，url处理和保存

链接分析

web图，出度入度，邻接表，
锚文本是对Url的描述，指出的链接是对page的认可。锚文本能用来描述url。
pagerank，为web图每一个节点赋值0-1，根据出入度，定义为访问概率，随机游走，deadend时跳转。
Markov链，转移概率矩阵，从状态i到j的条件转移概率，所有I的出链概率和为1
hub和Authority

文档处理

倒排索引

【词典】存于内存，按字母排序
文档解析：预处理，文档编码的处理，文档单位的处理
词条化：给文档分词，生成词条-文档对
去除停用词：比如文档频率很高但没什么意思的词。建立停用词表。实际不用
归一化：语言学预处理，使多个词条归纳为等价类
词形归并，词干还原
排序：按首字母排序，合并词项-文档对，生成词典，记录文档频率df（倒排表长度）
【倒排表】存于磁盘，按ID排序
使用单链表或可变长数组存储
使用跳表的快速合并算法，加速合并多个倒排记录，只对AND查询有用
二元词索引：扩展二元词NXXXN，用于处理短语。不实用
位置信息索引：记录包括文档ID+位置信息
混合索引：对有些短语使用二元词，对有些短语使用位置索引

索引构建

硬件基础：访问内存快，磁盘寻道慢，按块访问快。
【外部排序算法】：词条化后词项文档对太大&

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。