根据前面的介绍全文索引简介_u012166464的博客-CSDN博客,倒排索引表可以使用字典方式处理数据,存储使用hash方式。
具体结构如下,可以每个单词用一个32位整数标识,称为wordid,所有单词保存在hash结构里。hash桶格式可以配置,这里可以定位65536(数量小了冲突多,数量大了浪费空间)。这个每个单词位置可以使用wordid%65536,hash值重复的保存在冲突链表里。
doclist/hlist的存储组织
doc记录了单词对应的文档id列表,HIT记录了单词在某一个文档中的offset列表。他们存储结构均可以使用B树+BLOCK实现,这样可以保证查询的效率和减少访盘的次数。
B树文件以wordid为键值存储。