【Redis系列2】Redis字符串对象之SDS(简单动态字符串)实现原理分析

2401_83977705

于 2024-05-01 07:19:52 发布

阅读量296

点赞数 10

分类专栏：程序员文章标签： redis 数据库缓存

本文链接：https://blog.csdn.net/2401_83977705/article/details/138365250

版权

程序员专栏收录该内容

191 篇文章 0 订阅

订阅专栏

本文详细比较了SDS在Redis中的字符串处理与C语言字符串的区别，涉及长度计算效率、缓冲区溢出风险、内存分配与释放，以及Redis对象的设计和内存编码策略。重点讲述了为何Redis选择SDS而非C语言字符串实现。

摘要由CSDN通过智能技术生成

SDS和C语言字符串区别

现在我们总结一下SDS和C语言中实现的字符串的区别

| C字符串 | SDS |

| — | — |

| 只能保存文本类不含空字符串’\0’数据 | 可以保存文本或者二进制数据，允许包含空字符串’\0’ |

| 获取字符串长度的复杂度为O(n) | 获取字符串长度的复杂度为O(1) |

| 操作字符串可能会造成缓冲区溢出 | 不会出现缓冲区溢出情况 |

| 修改字符串长度N次，必然需要N次内存重分配 | 修改字符串长度N次，最多需要N次内存重分配 |

| 可以使用C字符串相关的所有函数 | 可以使用C字符串相关的部分函数 |

SDS的底层存储对象

=======================================================================

上面讲了这么多，可能很多人会以为Redis底层就是直接用了SDS数据结构来存储，然而实际上并不是，我们回想一下Redis的全称是远程字典服务，所以在Redis中所有的数据类型都是将对应的数据结构再进行了一次包装，创建了一个字典对象来存储的。

dictEntry对象

每次创建一个key-value键值对，Redis都会创建两个对象，一个是键对象，一个是值对象，而且在Redis中，任何一个对象总是被包装成redisObject对象，并同时将键对象和值对象通过dictEntry对象进行封装，如下就是一个dictEntry对象（源码dict.h内）：

typedef struct dictEntry {

void *key;//指向key，即SDS

union {

void *val;//执行value，即5大常用数据类型

uint64_t u64;

int64_t s64;

double d;

} v;

struct dictEntry *next;//指向下一个key-value键值对(哈希值相同的键值对会形成一个链表，这种方式可以解决哈希冲突问题)

} dictEntry;

当我们执行如下命令：

set name lonely_wolf

会得到这样的一个对象(省略了一些无关的属性）：

在这里插入图片描述

redisObject

上面的redisObject就是我们的值对象（实际上key也是一个redisObject对象）如下就是一个redisObject对象的数据结构定义(源码server.h内)：

typedef struct redisObject {

unsigned type:4;//对象类型（4位=0.5字节）

unsigned encoding:4;//编码（4位=0.5字节）

unsigned lru:LRU_BITS;//记录对象最后一次被应用程序访问的时间（24位=3字节）

int refcount;//引用计数。等于0时表示可以被垃圾回收（32位=4字节）

void *ptr;//指向底层实际的数据存储结构，如：SDS等(8字节)

} robj;

所以，最终我们可以把上面的图简化为如下图所示([x]会根据长度选择为合适的值)：

在这里插入图片描述

对象类型type

对象类型即redisObject中的type属性，主要分为以下5种：

| 类型属性 | 描述 | type命令返回值 |

| — | — | — |

| REDIS_STRING | 字符串对象 | string |

| REDIS_LIST | 列表对象 | list |

| REDIS_HASH | 哈希对象 | hash |

| REDIS_SET | 集合对象 | set |

| REDIS_ZSET | 有序集合对象 | zset |

可以看到，这就是对应了我们5种常用的基本数据类型。

编码encoding

编码即redisObject中的encoding属性。我们可以使用命令 object encoding 来查看当前对象的编码。

在这里插入图片描述

从上图也可以看到，在字符串对象中，主要有3种编码类型，如下表所示：

| 编码属性 | 描述 | object encoding命令返回值 |

| — | — | — |

| OBJ_ENCODING_INT | 使用整数的字符串对象 | int |

| OBJ_ENCODING_EMBSTR | 使用embstr编码的SDS实现的字符串对象 | embstr |

| OBJ_ENCODING_RAW | 使用SDS实现的字符串对象 | raw |

int编码

当我们用字符串对象存储的是整型，且能用8个字节的long类型进行表示（即263-1），则Redis会选择使用int编码来存储，而且此时redisObject对象中的ptr指针直接替换为long类型。

embstr编码

当字符串对象中存储的是字符串，且长度小于44(3.2版本之前是39)时，Redis会选择使用embstr编码来存储。

raw编码

当字符串对象中存储的是字符串，且长度大于44时，Redis会选择使用raw编码来存储。

embstr编码为什么从39位修改为44位

embstr编码中，redisObject和SDS是连续的一块内存空间，这块内存空间Redis限制为了64个字节，而redisObject占了16字节，Redis3.2版本之前的sds占了8个字节，再加上字符串末尾’\0’占用了1个字节，所以：64-16-8-1=39字节。

Redis3.2之后sds做了优化，对于embstr编码会采用sdshdr8来存储，而sdshdr8占用的空间只有24位：3字节(len+alloc+flag)+1字节(’\0’字符)，所以最后就剩下了：64-16-3-1=44字节。

embstr编码和raw编码的区别

embstr编码是一种优化的存储方式，其在申请空间的时候使得redisObject和SDS两个对象是一个连续空间，所以只需要申请1次空间（同样的，释放内存也只需要1次），而raw编码因为redisObject和SDS两个对象的空间是不连续的，所以使用的时候需要2次申请空间（同样的，释放内存也需要2次）。但是使用embstr编码时，假如需要修改字符串，那么因为redisObject和SDS是在一起的，所以两个对象都需要重新申请空间，为了避免这种情况发生，embstr编码的字符串是只读的，不允许修改。

上图中的示例我们看到，对一个embstr编码的字符串对象进行append操作时，长度还没有达到45，但是编码已经被修改为raw了，这就是因为embstr编码是只读的，如果需要对其修改，Redis内部会将其修改为raw编码之后再操作。同样的，如果是操作int编码的字符串之后，导致long类型无法存储时(int类型不再是整数或者长度超过263-1时)，也会将int编码修改为raw编码。

PS：需要注意的是，编码一旦升级(int–>enmstr–>raw)，即使后期再把字符串修改为符合原内存编码的存储格式时，编码也不会回退。

最近访问时间lru

这个属性记录了对象最后一次被访问的时间，可以通过命令object idletime得到当前对象的空闲时间，即：当前时间-lru时间。

在这里插入图片描述

需要注意的是 object idletime 命令本身不会记录到lru属性。

当我们开启了maxmemory时，而且回收内存算法属性maxmemory-policy配置为volatile-lru或者allkeys-lru时候，当达到maxmemory设定值时，空闲时间最长的key会被优先回收。

maxmemory 512MB #不带单位则默认是字节

maxmemory-policy volatile-lru

引用计数refcount

C语言本身并没有提供内存回收机制，所以Redis自己实现了一种简单的引用计数法来进行垃圾回收，简单来说就是当前对象被引用1次，计数就+1，当refcount等于0时表示当前对象没有任何引用，可以被垃圾回收。想要详细了解垃圾回收算法的，可以点击这里。

总结

===============================================================

本文主要介绍了Redis中五种常用类型中最常用的一种字符串数据对象进行了分析，其底层采用了SDS来存储，并进一步分析了SDS是如何被包装以及其内存分配策略和空间释放策略，及其编码类型等，在文中，我们也将其和C语言的字符串进行了对比，进一步分析了为什么Redis最终选择使用SDS来替换C语言中的字符串。

总结

面试建议是，一定要自信，敢于表达，面试的时候我们对知识的掌握有时候很难面面俱到，把自己的思路说出来，而不是直接告诉面试官自己不懂，这也是可以加分的。

以上就是蚂蚁技术四面和HR面试题目，以下最新总结的最全，范围包含最全MySQL、Spring、Redis、JVM等最全面试题和答案，仅用于参考

一份还热乎的蚂蚁金服面经（已拿Offer）面试流程4轮技术面+1轮HR

等，在文中，我们也将其和C语言的字符串进行了对比，进一步分析了为什么Redis最终选择使用SDS来替换C语言中的字符串。

总结

以上就是蚂蚁技术四面和HR面试题目，以下最新总结的最全，范围包含最全MySQL、Spring、Redis、JVM等最全面试题和答案，仅用于参考

[外链图片转存中…(img-d4mVJKP3-1714519181685)]

本文已被CODING开源项目：【一线大厂Java面试题解析+核心总结学习笔记+最新讲解视频+实战项目源码】收录

2401_83977705

关注

10
点赞
踩
24

收藏

觉得还不错? 一键收藏
1
评论
【Redis系列2】Redis字符串对象之SDS(简单动态字符串)实现原理分析

SDS和C语言字符串区别现在我们总结一下SDS和C语言中实现的字符串的区别| C字符串 | SDS || — | — || 只能保存文本类不含空字符串’\0’数据 | 可以保存文本或者二进制数据，允许包含空字符串’\0’ || 获取字符串长度的复杂度为O(n) | 获取字符串长度的复杂度为O(1) || 操作字符串可能会造成缓冲区溢出 | 不会出现缓冲区溢出情况 || 修改字符串长度N次，
复制链接

扫一扫