博客专栏  >  互联网   >  信息检索笔记

信息检索笔记

本文专栏介绍了一些关于信息检索的基本概念和基本算法,也是我在看《信息检索导论》的笔记。

关注
0 已关注
7篇博文
  • 信息检索笔记-完整搜索系统的评分计算

    前面我们给出了文档评分中词项权重计算的理论,并由此导出向量空间模型和基本余弦相似度评分算法。当然不少策略不会精确返回与查询相匹配的K篇文档,一些策略也可以推广到余弦相似度计算之外的其他场合中去。 ...

    2013-10-04 11:11
    2262
  • 信息检索笔记-文档平分,词项权重计算

    给定一个布尔查询,返回的结果要么满足条件,要么不满足条件,结果很多的时候就不太对了,应该按照文档的重要性排序后呈现给用户。     本文引入简单的几种权重计算。 域索引权重计算      我们知道...

    2013-10-03 16:52
    2052
  • 信息检索笔记-索引压缩

    第一章介绍了信息系统中的两个数据结构:词典及倒排记录表。本文将介绍对两个数据结构的各种压缩技术,这些技术对构建高效的IR系统很关键。      索引压缩的优点:(1)第一能增加高速缓存利用率。在搜索系...

    2013-10-02 19:52
    1615
  • 信息检索笔记-索引构建

    如何构建倒排索引,我们将这个过程叫做“索引构建”。如果我们的文档很多,这样索引就一次性装不下内存,该如何构建。 硬件的限制     我们知道ram读写是随机的操作,只要输入相应的地址单元就能瞬间将...

    2013-10-02 16:27
    2461
  • 信息检索笔记-词典及容错式检索

    本文将介绍当查询中出现拼写错误时的鲁棒性处理技术。并给出可能的查询结果。 词典的数据结构      第一章我们知道,倒排表包括两个部分。一个是倒排索引,另一个是倒排记录表。我们查询的时候首先要通过...

    2013-10-02 14:55
    1973
  • 信息检索笔记-词项及倒排记录表

    建立倒排表的几个主要步骤:搜集文档;对文档中的文本进行词条化;对词条进行语言学处理,得到词项;根据词项建立倒排索引。      通过词条化和语言学处理我么才能确定系统的所用词项词典。词条化将原始的字符...

    2013-10-02 11:05
    2383
  • 信息检索笔记-布尔检索

    信息检索主要分为三大类:Web搜索、个人信息检索和面向企业的搜索。 词项文档矩阵      在搜索的时候,一种土办法:假设我们要搜索要在一本书中搜索含有“Brutus”和“Caesar”关键字的文...

    2013-10-01 21:08
    2165

img博客搬家
img撰写博客
img发布 Chat
img专家申请
img意见反馈
img返回顶部