前言
Redis虽然是使用C语言编写的,但是并没有使用C语言的字符串,而是自己实现了一个新的数据结构来表示字符串,即简单动态字符串(Simple Dynamic String)SDS.
一. 数据结构
SDS 的数据结构有两个版本,在3.2版本前,数据结构如下,
typedef char *sds; //注意,sds其实不是一个结构体类型,而是被typedef的char*,好处见下文
struct sdshdr {
unsigned int len; //buf中已经使用的长度
unsigned int free; //buf中未使用的长度
char buf[]; //柔性数组buf
};
3.2版本之后,针对不同的长度范围定义了不同的结构,数据结构如下,
typedef char *sds;
struct __attribute__ ((__packed__)) sdshdr5 { // 对应的字符串长度小于 1<<5
unsigned char flags; /* 3 lsb of type, and 5 msb of string length */
char buf[];
};
struct __attribute__ ((__packed__)) sdshdr8 { // 对应的字符串长度小于 1<<8
uint8_t len; /* used */ //目前字符创的长度
uint8_t alloc; //已经分配的总长度
unsigned char flags; //flag用3bit来标明类型,类型后续解释,其余5bit目前没有使用
char buf[]; //柔性数组,以'\0'结尾
};
struct __attribute__ ((__packed__)) sdshdr16 { // 对应的字符串长度小于 1<<16
uint16_t len; /* used */
uint16_t alloc; /* excluding the header and null terminator */
unsigned char flags; /* 3 lsb of type, 5 unused bits */
char buf[];
};
struct __attribute__ ((__packed__)) sdshdr32 { // 对应的字符串长度小于 1<<32
uint32_t len; /* used */
uint32_t alloc; /* excluding the header and null terminator */
unsigned char flags; /* 3 lsb of type, 5 unused bits */
char buf[];
};
struct __attribute__ ((__packed__)) sdshdr64 { // 对应的字符串长度小于 1<<64
uint64_t len; /* used */
uint64_t alloc; /* excluding the header and null terminator */
unsigned char flags; /* 3 lsb of type, 5 unused bits */
char buf[];
};
新版带来的好处就是:对内存做了进一步优化,长度不同的字符串使用不同的数据结构,选取不同的数据类型uint8_t或者uint16_t或者uint32_t等来表示长度、一共申请字节的大小等。上面结构体中的__attribute__ ((packed)) 设置是告诉编译器取消字节对齐,则结构体的大小就是按照结构体成员实际大小相加得到的。
二 . 特点
2.1 二进制安全
C语言,使用char数组来保存字符创,且必须以空字符’\0’结尾来标志结束,同时因为字符串不记录字符串长度,所以想要获取字符串的长度,只能遍历char数组直到遇到’\0’,时间复杂度为O(n);
因为C字符串必须以空字符’\0’识别结尾,所以只能保存文本数据,不能用来保存多媒体,图片等二进制数据,即是二进制不安全的。
而SDS存在len属性来记录字符串长度,此时获取字符串长度时间复杂度变为了O(1)。同时因为记录了长度,不需要以’\0’来标志结束,所以可以保存多媒体、图片等二进制数据,即是二进制安全的。
但需要注意的是,SDS仍会以空白字符’\0’结尾(不占用长度),不过只是为了复用C字符串的一些函数。
2.2 内存空间分配
C语言字符串,空间需要手动分配,扩充字符串的时候如果没分配足够的内存,则在字符串拼接时可能会出现缓冲区溢出,数据覆盖的问题。在缩短字符串时,若未及时回收空间,也会存在空间泄漏的问题。
空间预分配
而SDS则不会出现这种情况,当字符串需要扩充时,SDS会自动扩容,不需要手动管理,同时还会分配额外未使用的空间。扩容策略如下:
- 若扩大长度之后的长度(len)小于1M时,则扩容为加倍当前空间,分配和len属性一样大小的未使用空间(此时buf数组已使用空间=未使用空间)。
- 若扩大长度之后的长度(len)大于1M,扩容一次会多扩容1M的空间
而由于每次扩容会多出一片空间(一般alloc会大于len),从而不用每次扩充字符串时都需要重新分配内存,减少了内存重分配的次数,提升了效率。
惰性回收
- 字符串缩短时,程序不立即回收多出来的字节,以备后来使用(扩充字符串)
- SDS提供了释放空间的api,在有需要时,可以释放内存,避免空间浪费
2.3 总结与C字符串的区别:
C字符串 | SDS |
---|---|
不记录长度,获取长度时间复杂度O(n) | len记录长度,获取长度时间复杂度O(1) |
可以保存不含’\0’的文本数据 | 可以保存文本、图片、音频等多种二进制数据 |
扩充字符串会出现缓冲区溢出的问题 | 不会出现缓冲区溢出的问题 |
修改字符串必然内存重分配 | 修改字符串不一定触发内存重分配(次数变少) |
可以使用C字符串所有函数 | 可以使用部分C字符串函数 |
Redis定位于一个高性能的内存数据库,其面向的就是大数据量,大并发,频繁读写,高响应速度的业务。因此在保证安全稳定的情况下,性能的提升非常重要。而SDS的数据结构,屏蔽了C语言字符串的一些缺点,同时可以提供安全高性能的字符串操作。