信息检索
文章平均质量分 89
EverlightGe
这个作者很懒,什么都没留下…
展开
-
信息检索导论笔记之1--3章
第一章 布尔检索信息检索是从大规模非结构化数据(通常是文本)的集合(通常保存在计算机上)中找出满足用户信息需求的资料(通常是文档)的过程.”非结构化数据”指的是那些没有清晰和明显的语义结构的数据,与之相对的,最典型的就是关系数据库.1.基本概念 检索系统(搜索结果质量)的评价指标:正确率(precision): 返回的结果中真正和信息需求相关的文档所占的比例召回率(recall): 所有和信原创 2017-12-23 21:21:14 · 828 阅读 · 0 评论 -
信息检索导论第八章-信息检索的评价
第八章 信息检索的评价1. 无序检索结果集合的评价如何度量系统的效果?信息检索中最常用的两个指标是正确率和召回率。正确率(Precision,简记为P): 返回的结果中相关文档所占的比例 Precision=返回结果中相关文档的数目/返回结果的数目召回率(Recall,简记为R) : 返回的相关文档占所有相关文档的比例 Recall=返回结果中相关文档的数目/所有相关文原创 2018-01-12 14:38:07 · 1524 阅读 · 0 评论 -
信息检索导论第9章-相关反馈及扩展查询
第9章 相关反馈及扩展查询9.1 相关反馈及伪相关反馈RF(relevance feedback,相关反馈)的主要思想是,在信息检索的过程中通过用户交互来提高最终的检索效果。1. Rocchio相关反馈算法Rocchio算法是相关反馈中的一个经典算法,它可以将相关反馈信息融入到向量空间模型中,即修改查询向量的权重。1. 基本理论 假设我们要找一个最优查询向量 q原创 2018-01-12 21:41:07 · 2952 阅读 · 0 评论 -
信息检索导论第四章-索引构建
第四章 索引构建我们将建立倒排索引的过程称为索引构建。4.1 硬件基础构建信息检索系统时,很多决策都和系统硬件环境有关。访问内存数据比访问硬盘数据快得多,因此,我们要尽可能将数据放在内存中,尤其是访问频繁的数据。 这种将频繁访问的磁盘数据放到内存的技术成为高速缓存。进行磁盘读写时,寻道时间(即将磁头移到数据所在磁道的时间)是很耗时的。寻道期间不进行数据传输。为使数据传输率最大,连续读取的数据原创 2017-12-30 16:19:46 · 995 阅读 · 0 评论 -
信息检索导论第六章- 第六章 文档评分、词项权重计算及向量空间模型
第六章 文档评分、词项权重计算及向量空间模型在文档集规模很大时,满足布尔查询结果的文档数量可能非常多,往往会大大超过用户能够浏览的文档的数目。对于给定的查询,搜索引擎会计算每个匹配文档的得分并排序。6.1.参数化索引及域索引之前,我们都是将文档看成一系列词项的序列。但实际上,文档除了文本外还有元数据,比如创建时间、文档标题,作者信息等,因此我们也可以对他进行限制;比如限制查询文档结...原创 2018-01-01 21:17:20 · 4655 阅读 · 0 评论 -
信息检索导论-第七章 一个完整搜索系统中的评分计算
第七章 一个完整搜索系统中的评分计算7.1 快速评分及排序之前我们讲的都是给定查询后,精确返回前K篇得分最高的文档的方法。这里,我们主要关注产生“可能”排名最高的K篇文档的方法。这样的目的在于,显著降低输出前K篇文档所需要的计算复杂度。计算前K篇得分最高文档的主要开销来源于大量文档都参与的余弦相似度计算,下面介绍一些非精确返回前K篇文档的一系列启发式策略。非精确返回前K篇文档的...原创 2018-01-11 17:19:30 · 1420 阅读 · 0 评论