信息检索导论读书笔记
信息检索导论读书笔记
时间很奇妙!
求知
展开
-
信息检索导论读书笔记(六):文档评分、词项权重计算及向量空间模型
在文档集规模很大的情况下,满足布尔查询的结果文档数量可能非常多,往往会大大超过用户能够浏览的文档数目。因此对搜索引擎来说,对文档进行评分和排序非常重要。参数化索引及域索引大多数文档具有额外的结构信息,与文档相关的特定形式的数据(比如作者、标题、出版日期等)我们称为元数据。数字文档通常会把与之相关的元数据以机读的方式一起编码。元数据通常会包括字段信息,对每个字段(比如文档创建时间)建立与之对...原创 2020-03-26 18:55:50 · 2041 阅读 · 0 评论 -
信息检索导论读书笔记(五):索引压缩
在先前的章节中介绍了信息检索系统中两个主要数据结构:词典、倒排记录表。接下来将介绍对这两个数据结构的各种压缩技术。这些技术对于构建高效的IR系统非常关键。压缩的优点有:节省磁盘空间,压缩比可以非常容易达到1:4以上 增加高速缓存技术的利用率,压缩后高速缓存中可以存放更多的信息 加快数据从磁盘到内存的传输速度,将压缩的数据块传输到内存并解压缩需要的总时间往往比将未压缩的数据块传输到内存快索...原创 2020-03-26 15:10:35 · 1184 阅读 · 0 评论 -
信息检索导论读书笔记(四):索引构建
建立倒排索引的过程称为索引构建,负责构建索引的程序或计算机称为索引器。操作系统往往以数据块为单位进行读写,因此从磁盘读取一个字节和读一个数据块所耗费的时间可能一样多。采用一种高效的解压缩算法然后读磁盘压缩数据再解压所花的时间往往会比直接读取为压缩数据的时间少。基于块的排序索引方法(blocked sort-based indexing)(BSBI): 对于很多大型语料...原创 2020-03-25 15:55:32 · 770 阅读 · 0 评论 -
信息检索导论读书笔记(三):词典及容错式检索(通配符查询、拼写校正)
假设给定倒排索引及查询,首先应确定查询词项是否在词汇表中,如果在应该返回词项对应的倒排记录表的指针。查找操作通常采用词典的经典数据结构。实现这种数据结构有两种方式:哈希表及搜索树。关于两者的定义在此不再赘述。哈希表除了需要解决哈希冲突的问题,在查询词存在轻微变形时也无法进行查询,并且由于词汇表往往是不断增长的,为当前需求设计的哈希函数可能过一段时间就不再适用。因此通常适用搜索树的查询...原创 2020-03-25 13:37:19 · 2071 阅读 · 0 评论 -
信息检索导论读书笔记(二):布尔检索、倒排索引、倒排索引表合并算法、短语查询
布尔检索: 布尔检索模型接受布尔表示查询,即通过AND、OR及NOT等逻辑操作符将词项连接起来进行查询,在该模型下,每篇文档只被看成是一系列词的集合。布尔搜索的一个普遍问题就是AND操作产生的结果正确率高但是召回率偏低,而采用OR操作符召回率高但是正确率低,因此很难或者说不可能找到一个令人满意的这种方案。倒排索引: 倒排索引是信息检索内第一个核心概念。倒排索引中...原创 2019-12-20 00:08:55 · 2470 阅读 · 1 评论 -
信息检索导论读书笔记(一):开篇
不知不觉马上要毕业了,前段时间由于一直在做毕业设计的项目,没有时间学习计算机相关知识,最近终于把大论文交了,又有点时间看一下自己想看的知识。除了之前还留了个尾巴的操作系统课程笔记,由于要入职的组是做搜索的,所以打算看一下相关的书籍《信息检索导论》,应该能够从中收获很多知识。 不过这一系列笔记可能跟之前网络和操作系统的课程笔记不太一样,更加偏重计一些我自己认为有意义有意...原创 2019-12-19 23:09:57 · 437 阅读 · 0 评论