信息检索之布尔检索

1、倒排索引的两部分


图 1-3
2、构建倒排索引的过程
      ①收集需要建立索引的文档;
    ②将每篇文档转换成一个个词条的列表,这个过程成为词条化; (第二章)
    ③进行语言学处理,产生归一化的词条来作为词项; (第三章)
    ④对所有文档按照其中出现的词项来建立倒排索引,索引中包括一部词典(存于内存)和一个全体倒排索引表(存于磁盘)。 (第四章)

图1-4
3、倒排索引的词典和倒排索引都有存储开销,可以通过存储优化的策略来提高访问效率。
4、每个倒排记录表的数据结构式:
    ①单链表:    便于文档的插入和更新(比如,对更新的网页进行重新的采集)(跳表实现);
    ②变长数组:节省空间,并且采用连续的内存存储,可以充分利用现代计算机的缓存(cache)奇数来提高访问速度。在索引更新不频繁的情况下,在空间商表现的更加的紧凑,遍历也更快。
    ③定长数组的链表方式。
5、     正确率:返回的结果中真正和信息需求相关的文档所占的百分比;
          召回率:所有和信息需求真正相关的文档中被检索系统返回的百分比。
6、有序检索:临近操作符用于制定查询的两个词项应该在文档中互相靠近,靠近成都通常采用两者之间词的个数或者是否同在某个结构单元中出现来衡量。
7、提出问题:
    ①更丰富的查询模型;
    ②用于高效查询处理的增强的索引结构
        1、容忍拼写错误及当查询和文档中词语表达不一致时的检索方法;
        2、能够检索复合词或者短语,比如(operating system);
        3、根据词项频率(词项在文档中出现的次数)来得到文档的相关度;
        4、对返回的结果进行排名;
8、不同的搜索引擎的索引和查询奇数都基本上一致。web搜索引擎增加了扩展布尔模型的一部分操作,其终端与查询非常流行。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值