redis 使用 c 语言开发,但它没有复用 c 原生字符串实现,自己构建了一种新的字符串实现:SDS(simple dynamic String),SDS 是 redis默认字符串实现
SDS 原理:
struct sdshdr {
// 记录buf数组中已使用字节的数量,也就是已用字符串的长度
int len;
// 记录buf数组中未使用字节的数量
int free;
// 字符数组,用于保存字符串
char buf[];
};
SDS 和 字符数组对比:
C 字符数组 | SDS |
---|---|
获取字符串长度需遍历 | 直接返回 |
API 不安全,可能导致缓冲区溢出 | API 安全,不会导致缓冲区溢出 |
每次修改长度都必须调用内存重分配 | 不是每次都调用 |
只能保存文本数据 | 可以保存二进制 |
可以使用所有 c 库函数 | 只能复用一部分 |
SDS 通过 len 属性记录字符串长度,因此无须遍历整个字符数组
缓冲区溢出:物理地址上的数据被覆盖
造成缓冲区溢出的主要原因在于不记录自身长度:对于物理地址上连续的两个字符串,当前一个调用 strcat 函数链接新字符串时,后面字符串数据就可能被覆盖,造成缓冲区溢出。SDS 每次修改时,首先根据 free 属性判断内存是否够用,不够时会扩容,因此可以避免缓冲区溢出。
对于字符数组,每次扩容或者缩容时都依赖内存重分配,否则可能造成缓冲区溢出或内存泄露。由于内存重分配需要执行系统调用,每次效率都很低,为了避免扩容成为 redis 的性能瓶颈,redis 采用以空间换时间的策略减少内存重分配的次数:
- 空间预分配:SDS 每次扩容时,多分配一部分内存。扩容后长度小于 1M,再分配自身长度,大于 1M,再分配 1M
- 惰性空间释放:缩容时不立即释放内存,先记录再 free 属性里,方便后续使用
SDS 提供了相应的函数回收内存,不会由于惰性空间释放导致内存泄露
C 字符数组由于种种规范及限制不能保存二进制数据,而 SDS 对字符数据无任何限制,完全读和写,不会因为空字符串就停止,因此可以保存二进制数据
SDS 仍遵循 c 字符数组以空字符串结尾的特性,这样做的好处在于 SDS 可以直接复用一部分 C 字符串函数。
需要注意的是,redis 中不是所有字符串都采用 SDS,对于返回值,日志类型数据仍采用字符数组