Lucene源码分析 - Lucene50PostingsFormat 倒排索引简介

本文深入解析Lucene倒排索引,涵盖基本概念如Packed Blocks和VInt Blocks,详细阐述词项词典、词项索引、doc文件、pos文件和pay文件的内容,包括存储格式和跳表构建。通过Lucene50PostingsFormat,了解倒排索引如何高效存储文档ID、位置、payload和offset信息。
摘要由CSDN通过智能技术生成

本文的代码以lucene-core 6.3.0为准,倒排索引的基本信息和Lucene50PostingsFormat 等整个类所有代码的解析。转载请注明出处。

0 基本概念

  • 在lucene中,有相当多的时候需要存正整数的数组,当这个数组比较大的时候,需要分块存储,有两种方式,第一种是整数数量固定数量(128)的block,就是Packed Blocks,每个整数占用相同的字节数,然后把每个block用PackedInts来压缩,为了达到压缩的效果,每个元素都存它本身和前一个元素的差值delta;第二种是整数数量不固定(小于128)的block,就是VInt Blocks,每个整数用VInt的方式存。
  • lucene中经常需要同时用到两种block的存储方式,比如存docID列表,假设列表长度是259,那么这可以存2个Packed Blocks,剩余3个整数用VInt Blocks存。
  • 跳表的跳跃间隔是BLOCK_SIZE(128),跳跃点会存每个docId的block的第一个docId,当然,第一个block就不需要设置跳跃点。
  • 详细的倒排索引源码分析可以看Lucene源码分析 - Lucene50PostingsWriter 存储倒排索引

1 词项词典(Term Dictionary)

  • 倒排索引的基本结构是term->文档ID列表,但是lucene中不是存文档ID列表,而是存term在的.do
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值