文档检索和倒排索引

尽管可用来找出相关的文档的查询有多种,但最简单、最常见的形式可用关系的术语描述为:
1、一个文档可被看成是关系DOC的元组。这个关系有很多的属性,每个属性对应于文档可能出现的一个词,每个属性都是布尔型——表明该词在该文档出现还是没有出现。例如:
Doc(hasCat, hasDog,…..)
其中hasCat取值为真当且仅当该文档中至少出现一次“cat”这个词。
2、 关系Doc的每个属性上都建有辅助索引。索引中只有查找键值为TRUE的索引项。
3、 我们不是给每个属性(即每个词)建立一个单独的索引,而是把所有的索引合成一个,称为倒排索引。这个索引使用间接桶来提高空间利用率。倒排索引被存储在连续的块中。

桶的插入和删除:
桶的内容是单个字段(指针)的记录,且像其他任何记录集合一样存放在块中。因此插入和删除指针时,可以用目前为止学习过的任一技术。

信息检索中两个有用的技术:
1、抽取词干
2、无用词(忽略)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值