Redis 字符串对象 底层实现(sds)

6 篇文章 0 订阅

sds

以后都在 github 更新,请戳 redis 字符串实现(sds)

目录

相关位置文件

  • redis/src/sds.c
  • redis/src/sds.h
  • redis/src/sdsalloc.h
  • redis/deps/hiredis/sds.h

内存构造

sdsSimple Dynamic Strings 的简称

SDS 是 C 中的一个字符串相关的库, 设计这个库是为了增强 libc 对字符串相关的处理功能, 这个库支持从堆外内存申请分申请字符串空间, 并且具备以下特性

  • 使用上非常简单
  • 二进制安全
  • 计算效率更高
  • 到目前为止和 C 的字符串处理函数兼容, 也就意味着你可以混用 libc 中的函数

对于这个库的设计和 API 相关说明感兴趣的同学请参考 sds

根据不同的字符串长度, 实际上创建出来存储这个 sds 相关信息的 C 结构体是不一样的

[外链图片转存失败(img-OBHByRSG-1566351437150)(https://github.com/zpoint/Redis-Internals/blob/5.0/Object/sds/sds.png)]

encoding

string 这个类型在 redis 中总共有 3 种编码方式 OBJ_ENCODING_RAW, OBJ_ENCODING_EMBSTR and REDIS_ENCODING_INT

(这个 encoding 用来区分 redis 对象的编码方式, 几种不同的 sds 在 sds header 中区分, sds header 区分的是 sds 的存储方式, 他们是两个不同的概念)

/* redis/src/object.c */
/* 选择 44 作为限制是因为在不到 44 个字符的时候, 当我们申请一个 EMBSTR 时最大需要申请的空间会小于 64 bytes
比一个 jemalloc 的 arena 单位要小 */
#define OBJ_ENCODING_EMBSTR_SIZE_LIMIT 44
robj *createStringObject(const char *ptr, size_t len) {
    if (len <= OBJ_ENCODING_EMBSTR_SIZE_LIMIT)
    	/* OBJ_ENCODING_EMBSTR */
        return createEmbeddedStringObject(ptr,len);
    else
    	/* OBJ_ENCODING_RAW */
        return createRawStringObject(ptr,len);
}

OBJ_ENCODING_RAW

127.0.0.1:6379> SET AA "hello world!"
OK
127.0.0.1:6379> OBJECT ENCODING AA
"embstr"

这是字符串对象 AA 的 C 结构体的内存构造

我们可以发现 ptr 指向了存储实际内容的 buffer, 这个 buffer 在这里是以 \0 结尾的 C 字符串

并且因为 buffer 中所存储的内容的长度在 44 字节以下, 这里的 encoding 是 OBJ_ENCODING_EMBSTR, 表示只需要做一次 malloc 系统调用即可, robjsdshdr8 会存储在这一次申请回来的空间中, 他们的内存地址是连续的

len 存储了字符串对象的实际长度, 当前字符串对象 hello world! 的长度为 12

alloc 是 buffer 当中申请到的实际上的空间大小, buffer 的空间大小也许会比字符串的长度要长, 这样在进行字符串的扩展等操作时无需再进行 malloc/realloc 这个系统调用

[外链图片转存失败(img-4WODWcZI-1566351437151)(https://github.com/zpoint/Redis-Internals/blob/5.0/Object/sds/emb_str.png)]

C 中的 bit field 的实现方式取决于编译器和操作系统, 在我的机器上表示如下图所示

我的机器是小端机器, typeencoding 同时存在了第一个字节中, 并且 lru 占用了剩下的 24 bits, 他们合起来刚好是一个字长

[外链图片转存失败(img-7kQy0ArQ-1566351437151)(https://github.com/zpoint/Redis-Internals/blob/5.0/Object/sds/bit-field.png)]

为什么 44 bytes

也许 redis 中存在如 python 内存管理机制 类似的机制, 我后续会验证是否如此

最小的 sds header 占用的空间, 加上 robj 的空间和 44 个额外的字节的总和不到 64 个字节, 刚好能放在一个 jemalloc 中的 arena 中

OBJ_ENCODING_EMBSTR

127.0.0.1:6379> SET AA "this is a string longer than 44 characters!!!"
OK
127.0.0.1:6379> OBJECT ENCODING AA
"raw"

如果你创建了一个超过 44 字节的字符串对象, encoding 就会跟着一起改变

此时 robjsds 不再是在连续的内存空间中, 至少需要调用 2 次 malloc 这个系统调用申请到这个字符串对象所需要的空间

[外链图片转存失败(img-rKAE2k96-1566351437152)(https://github.com/zpoint/Redis-Internals/blob/5.0/Object/sds/raw_str.png)]

REDIS_ENCODING_INT

127.0.0.1:6379> SET AA 13
OK
127.0.0.1:6379> OBJECT ENCODING AA
"int"

此时的 refcountUINT_MAX, ptr 存储的是真正的整数值, 以 long 的方式存储

[外链图片转存失败(img-dIkrZVgr-1566351437153)(https://github.com/zpoint/Redis-Internals/blob/5.0/Object/sds/int_str.png)]

/* redis/src/object.c */
len = sdslen(s);
if (len <= 20 && string2l(s,len,&value)) {
    /* 这个对象的编码方式是 long, 尝试使用公共的 long 对象而不是自己创建一个
       注意当设置了 maxmemory 时不会尝试使用公用对象
       因为每一个对象都会有一个自己的 LRU 字段才能使得 LRU 淘汰算法正常工作, 这些公有的对象会影响淘汰结果 */
    if ((server.maxmemory == 0 ||
        !(server.maxmemory_policy & MAXMEMORY_FLAG_NO_SHARED_INTEGERS)) &&
        value >= 0 &&
        value < OBJ_SHARED_INTEGERS)
    {
        decrRefCount(o);
        incrRefCount(shared.integers[value]);
        return shared.integers[value];
    } else {
        if (o->encoding == OBJ_ENCODING_RAW) sdsfree(o->ptr);
        o->encoding = OBJ_ENCODING_INT;
        o->ptr = (void*) value;
        return o;
    }
}

从上面的代码我们可以看出, 当设置的字符串对象长度 <= 20 个字符时并且能成功转换为 long 值时, 会以 long 的方式存储在 ptr

我们来验证下上面的设想是否正确, long 在我的机器上是 64 个 bit 表示的, 1 << 63 的值为 9223372036854775808, 因为 long 是一个有符号的值, 所以 long 能表示的最大的值为 (1 << 63) - 1

127.0.0.1:6379> SET AA 9223372036854775806
OK
127.0.0.1:6379> OBJECT ENCODING AA
"int"
127.0.0.1:6379> INCR AA
(integer) 9223372036854775807

如果我们再增加一次, 就会产生上溢, 你需要用 SET 命令来设置这个新的值并且 redis 会以 embstr 的编码方式存储

127.0.0.1:6379> INCR AA
(error) ERR increment or decrement would overflow
127.0.0.1:6379> SET AA 9223372036854775808
OK
127.0.0.1:6379> OBJECT ENCODING AA
"embstr"

string header

根据字符串不同的实际长度, 会使用不同的 ssd 类型

redis/src/sds.c
static inline char sdsReqType(size_t string_size) {
    if (string_size < 1<<5)
        return SDS_TYPE_5;
    if (string_size < 1<<8)
        return SDS_TYPE_8;
    if (string_size < 1<<16)
        return SDS_TYPE_16;
#if (LONG_MAX == LLONG_MAX)
    if (string_size < 1ll<<32)
        return SDS_TYPE_32;
    return SDS_TYPE_64;
#else
    return SDS_TYPE_32;
#endif
}

sdshdr5

通过 redis 客户端, 你没有办法设置 sdshdr5 这个字符串类型, 他把 lengthstring header type 一起压缩到了同一个 byte 中

[外链图片转存失败(img-zaGHrYru-1566351437153)(https://github.com/zpoint/Redis-Internals/blob/5.0/Object/sds/sdshdr5.png)]

sdshdr8

sdshdr8uint_8(1 个字节) 来存储 lenalloc

127.0.0.1:6379> SET AA "hello"
OK

[外链图片转存失败(img-F2dxRSv2-1566351437154)(https://github.com/zpoint/Redis-Internals/blob/5.0/Object/sds/sdshdr8.png)]

sdshdr16

sdshdr16uint_16(2 个字节) 来存储 lenalloc

[外链图片转存失败(img-1raKj1s2-1566351437154)(https://github.com/zpoint/Redis-Internals/blob/5.0/Object/sds/sdshdr16.png)]

sdshdr32

sdshdr32uint_32(4 个字节) 来存储 lenalloc

[外链图片转存失败(img-ml6Av8v2-1566351437154)(https://github.com/zpoint/Redis-Internals/blob/5.0/Object/sds/sdshdr32.png)]

sdshdr64

sdshdr64 只会在 64-bit 字长的机器上支持, uint_64(8 个字节) 用来存储 lenalloc

你能设置的最大的字符串对象的长度为 (1 << 32) - 1(32 位机器) 或 (1 << 64) - 1(64 位机器)

[外链图片转存失败(img-eZg18GDk-1566351437155)(https://github.com/zpoint/Redis-Internals/blob/5.0/Object/sds/sdshdr64.png)]

更多资料

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Redis 字符串Redis 中最基本的数据类型。它是一种键值对存储方式,键是字符串类型,值也是字符串类型。 Redis 字符串底层实现是基于双向链表和字典(dictionary)的。在 Redis 中,所有的键值对都存储在一个字典中,字典中的每一个节点都是一个键值对,同时也是一个双向链表的节点。字典本身是一个哈希表,用于快速查找和插入键值对。 当 Redis 中的一个字符串被修改时,Redis 会将旧的字符串值从字典中删除,然后将新的字符串值插入到字典中。这样,就可以保证 Redis 字符串的原子性,同时也保证了字符串的高效存储。 总结一下,Redis 字符串底层原理就是基于字典和双向链表实现的键值对存储方式。 ### 回答2: Redis 字符串底层实现原理是基于简单动态字符串SDS)和字典(dict)。 简单动态字符串SDS)是 Redis 底层字符串实现,它是一个动态分配的字符数组,并且可以在 O(1) 复杂度下进行字符串长度的获取和修改。SDS 的结构体中包含字符串指针、字符串长度、已分配内存长度等字段,通过这些字段可以方便地对字符串进行操作。 字典(dict)是 Redis 底层用于存储字符串键值对的数据结构。在 Redis 字符串中,键相当于字符串的名字,值则是存储的实际数据。字典采用哈希表作为底层实现,使用哈希函数将键映射到哈希桶中,以提高查找效率。在 Redis 中,哈希表的长度会根据实际数据的增加和删除进行动态扩容和缩容,以保证哈希表的平均负载因子不超过一个特定的值。 Redis 字符串底层实现成为一个 SDS 字符串结构,它与字典结构之间是相互独立的。当一个字符串被确定为一个键或值时,它会被存储在一个 SDSDICT 字典中,其中键为字符串本身,值则是一个指向 SDS 结构的指针。 总结来说,Redis 字符串底层实现原理是基于简单动态字符串SDS)和字典(dict)。SDS 是一个动态分配的字符数组,可以方便地进行字符串长度的获取和修改。而字典用于存储字符串键值对,通过哈希表提高查找效率。在 Redis 中,字符串被存储在一个 SDSDICT 字典中,其中键为字符串本身,值为指向 SDS 结构的指针。 ### 回答3: Redis字符串底层原理是通过使用简单动态字符串(简称SDS实现的。SDSRedis自己实现的以C字符串结构为基础的字符串库,它解决了C字符串的一些限制,使得Redis可以支持更多的操作和功能。 在Redis中,每个字符串对象都由一个redisObject结构表示,该结构包含了一个指向SDS的指针和其他元数据。SDS结构由以下几部分组成: 1. len:记录字符串的长度,即字节数。 2. free:记录SDS结尾未使用的字节数,方便扩展字符串时无需重新分配内存。 3. buf:实际的字符数组,用于存储字符串的内容。 Redis字符串对象底层原理有以下几个特点: 1. 动态扩展:SDS提供了高效的内存扩展机制,当字符串长度增加时,可以动态调整内存大小,避免了频繁的内存重新分配操作,提高了性能。 2. O(1)时间复杂度:SDS支持通过偏移量来直接访问字符串的某一位置的字符,所以读取和修改字符串的某一位置的操作时间复杂度为O(1)。 3. 惰性空间释放:当从字符串中删除部分字符时,SDS并不立即释放所占用的内存,而是通过将free字段增加相应的值来标记该内存已被释放,以备将来再次使用。 4. 兼容C字符串SDS结构与C字符串之间可以相互转换,方便Redis与其他系统进行兼容。 总的来说,Redis字符串底层原理是通过使用SDS实现的,SDS提供了高效的内存扩展和访问机制,使得Redis可以高效地处理字符串操作,提高了性能和灵活性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值