ElasticSearch中压缩算法LZ4的使用

最新推荐文章于 2024-07-02 07:30:27 发布

xiaobo_z

最新推荐文章于 2024-07-02 07:30:27 发布

阅读量3.5k

点赞数

分类专栏： elasticsearch 文章标签： elasticsearch lucene

本文链接：https://blog.csdn.net/qq_29579431/article/details/112917489

版权

本文介绍了ElasticSearch中LZ4压缩算法的原理和应用。LZ4侧重于快速压缩和解压，而非高压缩比。文章详细讲解了LZ4的压缩格式，包括Sequence结构、字面序列长度和匹配长度的表示，以及特定的压缩规则。通过实例展示了压缩过程，包括计算hash和找到相同数据区间的步骤。同时提供了Lucene 7.7.3版本中的LZ4压缩代码示例。

摘要由CSDN通过智能技术生成

简介

lz4是目前效率最高的压缩算法，更加侧重压缩解压速度，而不是压缩比。LZ4是ElasticSearch数据存储的默认编码（压缩）方式，通过index.codec来设置。

压缩原理

lz4压缩算法原理比较简单，如下面例子：

输入：abcde_bcdefgh_abcdefghxxxxxxx
输出：abcde_(5,4)fgh_(14,5)fghxxxxxxx

其中两个括号内的便代表的是压缩时检测到的重复项，(5,4) 代表向前5个byte，匹配到的内容长度有4，即"bcde"是一个重复。当然也可以说"cde"是个重复项，但是根据算法实现的输入流扫描顺序，我们取到的是第一个匹配到的，并且长度最长的作为匹配。

压缩格式

Sequence是LZ4最小数据单元，格式如下：

Token(1字节)		Literal length+ 字面序列长度(0~n字节)	字面序列	Offset(2字节)	Match length+ 匹配长度(0~n字节)
匹配长度(低4位)	字面序列长度(高4位)

在这里插入图片描述

token占一字节，其中高四位表示字面序列长度，低四位表示匹配长度。
字面序列长度即使字面序列的字符个数；匹配长度即是匹配序列的字符个数
因为字面序列长度以及匹配长度都占四个字节，最大为15。如果长度比15大的话，则将剩余的部分存到Literal length+和Match length+中。例如，字面序列长度为375，则Token的高4位为全1(即15)，Token的后一个字节为255，再后一个字节为105。
offset为匹配序列的偏移量。
当Token足以存下字面序列长度时，Token后面就是字面序列。当Token足以存下匹配长度时，Offset后面的字节将是EOF或者另外一个sequence。

LZ4算法还有一些特定的规则：

被压缩文本的最后5个byte只能用原文表示。
最后一次匹配的开始位置到文本末尾不能少于12个byte。
如果被压缩文本的长度小于13个byte,那么用原文表示会更节省空间。

举例

压缩过程分为两步
步骤一：计算hashÿ

最低0.47元/天解锁文章

xiaobo_z

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
ElasticSearch中压缩算法LZ4的使用

简介lz4是目前效率最高的压缩算法，更加侧重压缩解压速度，而不是压缩比。LZ4是ElasticSearch数据存储的默认编码（压缩）方式，通过index.codec来设置。压缩原理lz4压缩算法原理比较简单，如下面例子：输入：abcde_bcdefgh_abcdefghxxxxxxx输出：abcde_(5,4)fgh_(14,5)fghxxxxxxx其中两个括号内的便代表的是压缩时检测到的重复项，(5,4) 代表向前5个byte，匹配到的内容长度有4，即"bcde"是一个重复。当然也可以说"c
复制链接

扫一扫

专栏目录