ZipList压缩链表
ZipList是一种特殊的“双端链表”(不是真的链表),由一系列特殊编码的连续内存块组成。可以在任意一端进行压入/弹出操作,并且该操作的时间复杂度为 0(1)。
ZipList整体结构
简述ZipList的底层内存结构。
-
总字节数(zlbytes):整个ZipList所占用的总字节数。
-
尾偏移量(zltail):尾节点(tail节点)到起始地址所占用的字节数
-
entry数量(zllen):ZipList中entry节点的数量。
-
结束标识(zlend):一般ZipList以0xff作为结束标识。十进制则为255。
总结:
-
整个ziplist结构中
zlbytes、zltail、zllen、zllend
这四部分字节数都是固定的。等于 4 + 4 + 2 +1 = 11字节。可变的部分只是entry节点的内容。 -
标记的头尾节点,且上述4部分的字节数都是固定,所以可以通过ertry节点占用字节数
寻址
,即达到连续内存且快速在头尾操作的效果。
Entry 数据结构
-
previous_entry_length:前一entry节点的长度(占用的字节数),该长度以1个或5个字节表示
-
如果前一节点的长度<254字节,则采用1个字节来保存这个长度值
-
如果前一节点的长度>254字节,则采用5个字节来保存这个长度值,且第一个字节为0xfe,后四个字节才是真实长度数据
-
-
encoding:编码属性,记录content的数据类型(字符串or整数)以及长度,占用1个、2个或5个字节
-
contents:负责保存节点的数据,可以是字符串或整数
注意:
ZipList中所有存储长度的数值均采用小端字节序保存,即低位在前,高位在后。如:数值0x1234,高位保存是:0x1234,低位保存是:0x3412
知识点一:
- 为什么不用链表的指针结构?
因为指针占用8个字节,头尾指针共占用16字节,而用长度表示,最多占用5个字节,达到压缩内存的效果。
Encoding编码
Encoding编码分为两种,分别为字符串编码和整数编码。
-
字符串编码:以
"00","01","10"
开头,则证明content是字符串。
字符串的编码长度为1、2、5个字节。例如,保存字符串"ab",“bc”。
1、entry节点的内存展示如下:-
由于*“ab”*是头结点,所以
previous_entry_length=0x00
-
内容占用两个字节,所以编码只需要使用单个字节表示,且长度为2,所以
encoding=0x02
-
内容中"ab"所对应的arcii码为"97",“98”,所以内容
content=0x61,0x62
2、整体的ZipList结构如下:
-
总字节数:zlbytes = 4 + 4 + 2 + entry节点(4+4)+ 1 = 19byte,所以
zlbytes=0x13
-
尾偏移量:zltail = zlbytes - zlend - tail节点的长度 = 19 - 1 -4 = 14byte,所以
zltail=0x0e
-
entry数量: entry节点两个,所以
zllen = 0x02
-
-
整数编码:以
"11"
开头,则证明content是整数。且encoding固定为1个字节
ZipList连锁更新问题
ZipList的每个entry都包含previous_entry_length来记录上一节点的大小,长度为1或5和字节表示。
-
如果前一节点的长度小于254字节,则采用1个字节来保存这个长度值
-
如果前一节点的长度大于等于254字节,则采用5个字节来保存这个长度值,第一个字节为0xfe,后四个字节才是真实长度数据
现在,假设我们有N个连续的、长度为250~253字节之间的entry,因此entry的previous_entry_length属性用1个字节
即可表示,如图所示:
若在头结点插入一个节点字节数长度为254的字符串,则变成如下图所示:
这样的话,下一节点的总字节数为250+5>254字节,所以依次传递下去,以后每一节点的previous_entry_length都要由1字节->变成5字节。这就是zipList连锁更新问题。
总结: ZipList这种特殊情况下产生的连续多次空间扩展操作称之为连锁更新(Cascade Update)。新增、删除都可能导致连锁更新的发生。
不过发生的概率极低。必要条件是:必须有N个连续的、长度为250~253字节之间的entry。
总结:
ZipList特性:
-
压缩列表的可以看做一种连续内存空间的"双向链表
-
列表的节点之间不是通过指针连接,而是记录上一节点和本节点长度来寻址,内存占用较低
-
如果列表数据过多,导致链表过长,可能影响查询性能
-
增或删较大数据时有可能发生连续更新问题