Redis数据结构-ZipList(压缩列表)

前言

ZipList在redis的集合和hash中被经常作为基层存储结构使用。

ZipList是一种特殊的“双向链表”,被设计为一系列连续内存经过特殊编码组成的数据结构。而抛弃了记录内存的指针的方法。即有效节省了内存开销,也可以在任意一端进行压入/弹出操作。且时间复杂度均为O(1)。

源码

其中redis源码中的解释如下
ziplist 是一个经过特殊编码的双向链表,旨在提高内存效率。 它存储字符串和整数值,其中整数被编码为实际整数而不是一系列字符。 它允许在 O(1) 时间内在列表的任一侧进行推送和弹出操作。 但是,由于每个操作都需要重新分配 ziplist 使用的内存,因此实际复杂性与 ziplist 使用的内存量有关

  • 即 redis 对不同数据类型和不同大小的数据结构有着不同的编码方式。虽然redis会对数据进行压缩来减少内存的使用。但是随着数据级的扩大,redis的消耗也随着变大。

数据结构源码如下

/* 创建一个空的 ziplist. */
unsigned char *ziplistNew(void) {
    unsigned int bytes = ZIPLIST_HEADER_SIZE+ZIPLIST_END_SIZE;
    unsigned char *zl = zmalloc(bytes);
    ZIPLIST_BYTES(zl) = intrev32ifbe(bytes);
    ZIPLIST_TAIL_OFFSET(zl) = intrev32ifbe(ZIPLIST_HEADER_SIZE);
    ZIPLIST_LENGTH(zl) = 0;
    zl[bytes-1] = ZIP_END;
    return zl;
}

而ZipList的数据组成如下图
在这里插入图片描述

属性类型长度用途
zlbytiesuint32_t4 字节记录整个ZipList所占的内存空间
zltailuint32_t4 字节记录表位节点的偏移量,即列表表尾的节点距离起始地址的字节数,用来确定为节点的地址
zllenunit16_t2 字节记录ZipList中节点个数。最大值为UINT16_MAX (65534),如果超过这个值,此处会记录为65535,但节点的真实数量需要遍历整个压缩列表才能计算得出。
entry列表节点不定压缩列表的各个节点,存储着具体数据和相关信息。节点长度由节点保存的内容决定
zlendunit8_t1 字节特殊值 0xFF (十进制 255 ),用于标记压缩列表的末端。

ZipListEntry的数据组成

  • ZipListEntry 中摒弃了传统的链表记录前后节点指针的方法,应为记录两个指针要16个字节,大大浪费了内存空间,其具体结构如下。
    在这里插入图片描述
    其中:
  • previous_entry_length:前一个节点的长度,占1个或者5个字节
    • 如果前一个节点大于254个字节,则采用5个字节来保存长度值,第一个字节为0xfe,后四个字节才是真实长度。
    • 如果前一个节点长度小于254个字节,则采用一个字节来保存长度。
  • encoding:编码属性,记录 content 的数据类型(字符串还是整数等)以及长度,占1个、2个或者5个字节
  • content:保存节点的数据,可以是字符串或者整数

ZipList中所有存储长度的数值均采用小端字节序,即低位字节在前,高位字节在后。例如:数值0x1234,采用小端字节序后实际存储值为:0x3412

Encoding编码

ZipListEntry中存储的数据分为整数和字符串:

  • 字符串:如果编码是由“01”、“00”、“10”开头,则证明 content 是字符串
编码编码长度字符串大小补充
|00pppppp|1 bytes<= 63 bytes“pppppp”表示无符号的 6 位数据长度
|01pppppp|qqqqqqqq2 byties<= 16383 bytes14位数据采用 big endian 存储(有Little-Endian、Big-Endian两种)
|10000000|qqqqqqqq|rrrrrrrr|ssssssss|tttttttt|5 byties<= 4294967295 bytes采用 big endian 存储且可表示的字符串长度最大2^32-1,所以第一个字节没有用到,所以低6位没有用,所以都是0

例如存储字符串ab
在这里插入图片描述

  • 整数:如果encoding是以“11”开始,则证明content是整数,且encoding固定只占1个字节。
    在这里插入图片描述
    • 其中最后一个 0 到 12 的无符号整数。编码后实际上是1到13,因为0000个1111不能用(被其它编码方式标识占用),所以要从编码的4位值中减去1才能得到正确值。

例如列表中有“2”、“5”两个整数
在这里插入图片描述

  • 结尾编码标识:表示ziplist的结尾,|11111111|

连锁更新问题

连锁更新是 ziplist 一个大的缺点,虽然是小概率事件,但是出现的话会严重影响性能。

ZipList中每一个Entry都包含previous_entry_length来记录上一个节点的大小,长度是1个或5个字节

  • 如果前一个节点长度小于254个字节,则采用1个字节保存长度值
  • 如果前一个节点长度大于等于254个字节,则采用5个字节来保存长度值

现在,假设我们有N个连续的、长度为250~253字节之间的entry,因此entry的previous_entry_length属性用1个字节即可表示,如图所示:

在这里插入图片描述

  • 在更新或新增时,如空间不够则要对整个列表重新分配来进行空间扩展。当插入元素较大的时候,导致后续元素的previous_entry_length占用的空间都在变化。导致每个元素的空间都要重新分配,照成性能大下降。
  • ZipList这种特殊情况下产生的连续多次空间扩展操作称之为连锁更新(Cascade Update)。新增、删除都可能导致连锁更新的发生。

总结

  1. ziplist 为了节省内存,采用了紧凑的连续存储。所以在修改操作下并不能像一般的链表那么容易,需要从新分配新的内存,然后复制到新的空间。
  2. ziplist是一种特殊的双向链表,可以存在时间复杂度位O(1)的情况下从头部或者尾部进行pop、push
  3. 如果列表数据过多,导致链表过长,会影响查询性能
  4. 增加或删除大数据时可能会导致连锁更新问题
  • 4
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值