- 博客(4)
- 资源 (2)
- 收藏
- 关注
原创 信息检索导论第9章-相关反馈及扩展查询
第9章 相关反馈及扩展查询9.1 相关反馈及伪相关反馈RF(relevance feedback,相关反馈)的主要思想是,在信息检索的过程中通过用户交互来提高最终的检索效果。1. Rocchio相关反馈算法Rocchio算法是相关反馈中的一个经典算法,它可以将相关反馈信息融入到向量空间模型中,即修改查询向量的权重。1. 基本理论 假设我们要找一个最优查询向量 q
2018-01-12 21:41:07 2659
原创 信息检索导论第八章-信息检索的评价
第八章 信息检索的评价1. 无序检索结果集合的评价如何度量系统的效果?信息检索中最常用的两个指标是正确率和召回率。正确率(Precision,简记为P): 返回的结果中相关文档所占的比例 Precision=返回结果中相关文档的数目/返回结果的数目召回率(Recall,简记为R) : 返回的相关文档占所有相关文档的比例 Recall=返回结果中相关文档的数目/所有相关文
2018-01-12 14:38:07 1420
原创 信息检索导论-第七章 一个完整搜索系统中的评分计算
第七章 一个完整搜索系统中的评分计算7.1 快速评分及排序之前我们讲的都是给定查询后,精确返回前K篇得分最高的文档的方法。这里,我们主要关注产生“可能”排名最高的K篇文档的方法。这样的目的在于,显著降低输出前K篇文档所需要的计算复杂度。计算前K篇得分最高文档的主要开销来源于大量文档都参与的余弦相似度计算,下面介绍一些非精确返回前K篇文档的一系列启发式策略。非精确返回前K篇文档的...
2018-01-11 17:19:30 1255
原创 信息检索导论第六章- 第六章 文档评分、词项权重计算及向量空间模型
第六章 文档评分、词项权重计算及向量空间模型在文档集规模很大时,满足布尔查询结果的文档数量可能非常多,往往会大大超过用户能够浏览的文档的数目。对于给定的查询,搜索引擎会计算每个匹配文档的得分并排序。6.1.参数化索引及域索引之前,我们都是将文档看成一系列词项的序列。但实际上,文档除了文本外还有元数据,比如创建时间、文档标题,作者信息等,因此我们也可以对他进行限制;比如限制查询文档结...
2018-01-01 21:17:20 4537
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人