《Introduction to Information Retrieval》读书笔记（一）

最新推荐文章于 2020-11-29 20:53:59 发布

ithiker

最新推荐文章于 2020-11-29 20:53:59 发布

阅读量2.7k

点赞数

分类专栏：读书笔记文章标签：读书文档存储 dictionary rest delete

本文链接：https://blog.csdn.net/ithiker/article/details/5841895

版权

读书笔记专栏收录该内容

23 篇文章 3 订阅

订阅专栏

最近细读了Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze的《Introduction to Information Retrieval》这本书，虽然是英文的，坚持着看了一大半了，确实不错，记下其中的一些重点内容，以备温习。书可以在这里找到：http://nlp.stanford.edu/IR-book/information-retrieval-book.html。

反文档索引（inverted index)

A 建立反文档索引的步骤

1）：收集将要被索引的文档，标号

2）：将每个文档变成一系列的标志（token）

3）：做些语言方面的预处理，将标志标准化

4）：建索引索引包括词典（dictionary）和后缀（posting），后缀对应该词出现在文中的信息。

B 建反文档的一个关键步骤是将各个文档的标记按字母序合并起来，相同的标志放在一块，因而形成词典+后缀的形式。由于一个标志出现在多个文档中，这样处理起来能够节省很多空间。词典中单词后面也可以记录单词的文档频率（document frequency），后缀部分进行第二次排序，按文档标号排序，这可以方便后面的查询

C 关于存储方式 词典多半存储于内存中，后缀多半存储于硬盘上。关于后缀的存储方式，通常的定长数组方式将后浪费很多空间，因为有的单词会出现在很多文章中。两个替换的接却方法是单链表和变长数组。单链表的插入开销小，这在频繁更新时有优势，并且他还可以方便的扩展成更高级的索引方法，例如跳跃链表（Skip list），这只需要额外增加一些指针即可；变长数组在空间开销上比单链表要小，因为它不需要单链表中用来存储指针的那部分，在时间开销上也更小，因为它使用连续内存空间，因而寻址速度更快。作为补充，额外的指针也可以用到变长数组上。如果数据更新不频繁，变长数组在检索上比单链表更紧凑、速度更快。也可以用后缀部分是定长数组的链表的混合模式，当后缀部分存储在硬盘上时，它作为一种连续形式存储于硬盘中，并且不带指针。这样减小了后缀的大小以及将后缀读入内存时的硬盘的寻址次数。

D 布尔查询步骤：A and B 形式

1）：在词典中定位A单词，判断其后缀是否为空，p₁指向其后缀

2）：在词典中定位B单词，判断其后缀是否为空，p₂指向其后缀

3）：对A，B单词的后缀“求交”

求交的算法

InterSect(p1,p2)
answer <-- < >
while p1 != NIL and p2 != NIL
do if docID(p1)=docID(p2)
then ADD(answer,douID(p1))//1
     p1 <-- next(p1)
     p2 <-- next(p2)
else if docID(p1) < docID(p2)
     then p1 <-- next(p1)//2
     else p2 <-- next(p2)
/*注释
1.如果p1指向的文件ID与p2的相同，那么该文件是answer
2.由于后缀是按升序排列的，因而当某指针指向的ID较小时，移动相应的指针使ID变大再做比较。
*/

多重查询求交

INTERSECT(<t1,....,tn>)
terms <-- SortByIncreasingFrequency(<t1,...,tn>)//将t1,..tn按df排列
result <-- Postings(first(terms))//结构为最小df查询词的后缀
terms <-- rest(terms)
while terms != NIL and result != NIL
do result <-- InterSect(result,postings(first(terms))//对最小和次小df查询词的后缀求交
terms <-- rest(terms)
return result

一个改进：通过跳跃指针改进求交时间复杂度

1）：在索引阶段增加一个跳跃指针，跳跃长度为后缀长度的平方根。

2）：跳跃指针只对初始的后缀起作用，对复杂查询的中间结果不起作用。

INTERSECTWITHSKIPS(p1,p2)
answer <-- < >
while p1 != NIL and p2 != NIL
do if docID(p1) = docID(p2)
     then ADD(answer,docID(p1))
     p1 <-- next(p1)
     p2 <-- next(p2)
elseif docID(p1) < docID(p2)
     then if hasSkip(p1) and (docID(Skip(p1)) <= docID(p2))
          then while hasSkip(p1) and (docID(Skip(p1)) <= docID(p2))
                do p1 <-- Skip(p1)
      else p1 <-- next(p1)
   else if hasSkip(p2) and (docID(Skip(p2)) <= docID(p1))
          then while hasSkip(p2) and (docID(Skip(p2)) <= docID(p2))
                do p2 <-- Skip(p2)
      else p2 <-- next(p2)
return answer