Lucene源码分析 - Lucene50PostingsFormat 倒排索引简介

最新推荐文章于 2022-04-10 23:23:28 发布

zoov

最新推荐文章于 2022-04-10 23:23:28 发布

阅读量772

点赞数

分类专栏： lucene源码分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wang_hnust/article/details/88198515

版权

本文深入解析Lucene倒排索引，涵盖基本概念如Packed Blocks和VInt Blocks，详细阐述词项词典、词项索引、doc文件、pos文件和pay文件的内容，包括存储格式和跳表构建。通过Lucene50PostingsFormat，了解倒排索引如何高效存储文档ID、位置、payload和offset信息。

摘要由CSDN通过智能技术生成

本文的代码以lucene-core 6.3.0为准，倒排索引的基本信息和Lucene50PostingsFormat 等整个类所有代码的解析。转载请注明出处。

0 基本概念

在lucene中，有相当多的时候需要存正整数的数组，当这个数组比较大的时候，需要分块存储，有两种方式，第一种是整数数量固定数量(128)的block，就是Packed Blocks，每个整数占用相同的字节数，然后把每个block用PackedInts来压缩，为了达到压缩的效果，每个元素都存它本身和前一个元素的差值delta；第二种是整数数量不固定(小于128)的block，就是VInt Blocks，每个整数用VInt的方式存。
lucene中经常需要同时用到两种block的存储方式，比如存docID列表，假设列表长度是259，那么这可以存2个Packed Blocks，剩余3个整数用VInt Blocks存。
跳表的跳跃间隔是BLOCK_SIZE(128)，跳跃点会存每个docId的block的第一个docId，当然，第一个block就不需要设置跳跃点。
详细的倒排索引源码分析可以看Lucene源码分析 - Lucene50PostingsWriter 存储倒排索引

1 词项词典(Term Dictionary)

倒排索引的基本结构是term->文档ID列表，但是lucene中不是存文档ID列表，而是存term在的.do

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。