【Redis 数据结构与对象】简单动态字符串SDS

最新推荐文章于 2023-09-20 11:21:13 发布

大脸猫Coding

最新推荐文章于 2023-09-20 11:21:13 发布

阅读量113

点赞数

分类专栏： Redis

本文链接：https://blog.csdn.net/Gao_Lijie/article/details/116021924

版权

Redis 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

【Redis 数据结构与对象】简单动态字符串SDS

1、概述

Redis没有直接使用C语言的传统字符串标识（以空字符结尾的字符数组），而是自己构建了一种简单动态字符串（simple dynamic string, SDS)的抽象类型，并且将SDS作为Redis的默认字符串。

Redis中，C字符串只会用于保存字符串字面量，用于无需对字符串进行修改的地方，例如打印日志。

redisLog(REDIS_WARNING, "Redis is now ready to exit....")

当redis需要的不仅仅是一个字符串字面量，而是可以被修改的字符串，就会用SDS来表示字符串值。

（1）例子1：

SET msg "hello world"

Redis会创建新的键值对。

键值对的键是一个字符串对象，对象底层为存"msg"的SDS。

键值对的值也是一个字符串对象，对象底层为存"hello world"的SDS

（2）例子2：

RPUSH fruits "apple" "banana" "cherry"

Redis会创建一个新的键值对：
键值的键是一个字符串对象，对象底层为一个保存字符串"fruits"的SDS

键值的值是一个列表对象，对象底层为包含了三个字符串对象，这三个字符串对象由三个SDS实现，一次保存"apple" “banana” “cherry”。

SDS除了用于保存字符串值以外，还可以用于缓冲区(buffer)：AOF模块中的AOF缓冲区、客户端状态中的输入缓冲区，都是由SDS实现。

接下来介绍SDS与C字符串之间的差别，已经为什么Redis使用SDS而不是C字符串，并且给出SDS操作的API

2、SDS定义

每个sds.h/sdshdr 结构表示一个SDS值

struct sdshdr {
	// 记录buf数组中已使用字节的数量
	// 等于SDS所保存的字符串长度
	int len;
	// 记录buf数组中未使用字节的数量
	int free;
	// 字节数组 用于保存字符串
	char buf[];
}

在这里插入图片描述

属性说明：

（1）free属性值为0：代表这个SDS没有分配任何未使用的空间

（2）len属性值为5：说明SDS保存了一个五字节长的字符串。

（3）buf属性是一个char类型的数组，前五个字节为数据Redis，最后一个字符为空字符’\0’

SDS遵循C字符串结尾为’\0’空字符结尾，这个空字符1字节不包括在SDSlen属性里面，空字符分配额外1字节空间，SDS函数自动完成，对于使用者透明。好处是SDS可以复用C字符串里的函数。

在这里插入图片描述

3、SDS与C字符串的区别

（1）SDS常数复杂度获取字符串长度

C字符串并不记录自身的长度信息，所以遍历整个字符串。操作复杂度为O(N)

而SDS有一个len属性记录了SDS本身的长度，所以为O(1)

（2）SDS防止缓冲区溢出

C字符串不记录自身长度有可能导致缓冲区溢出。

strcat函数可以将src字符串中的内容拼接到dest字符串的尾部。

char *strcat(char *dest, const char *src);

s1与s2内存中紧邻。如果将s1后序添加一个字符串，但是忘记在strcat之前为s1分配足够的内容，那么就会导致s1数据溢出到s2中。

Redis中SDS空间分配策略杜绝了缓冲区溢出问题，SDS API对SDS修改的时候，会先检查SDS空间是否满足修改需要，如果不满足，API会自动将SDS空间扩展到修改所需的大小，然后才执行实际的修改操作。故SDS不用手动修改SDS空间，也不会出现缓冲区溢出问题。

例如SDS的API中也有一种执行拼接操作的sdscat函数，可以将C字符串拼接到给定SDS所保存的字符串后面，但是在执行拼接操作的时候，sdscat会先检查给定SDS空间是否足够，如果不够的话sdscat会先扩展SDS空间，然后才执行拼接。

在拼接之后会分配未使用空间，并且有空间分配策略。

（3）减少修改字符串时带来的内存重分配次数

C字符串不记录自身长度，所以每次增长或缩短一个C字符串，程序会对保存这个C字符串的数组进行一次内存重分配。有两个增长与缩短的问题：

①缓存区溢出：增长字符串的操作，重新分配扩展底层数组空间大小。

②内存泄露：例如缩短字符串操作，截断操作，程序需要通过内存重分配释放字符串不再使用的空间。如果忘记释放内存会导致内存泄露。

内存重分配有复杂的算法，可能需要执行系统调用。是比较耗时的操作：（Redis这样设计减少内存重分配次数的原因）

①一般程序，修改字符串长度不太常见，每次修改都执行一次重分配可以接受。

②但是Redis作为数据库，经常被用于速度要求严苛，数据频繁修改的场合，出现大量的字符串修改，那么就会导致修改字符串很多时间在重分配内存。

所以避免C语言字符串缺陷，SDS通过未使用空间free解除了字符串长度和底层数组长度之间的关联：在SDS中，buf数组的长度不一定是字符数量+1，数组里面可以包含未使用的字节，而这些字节的数量就由SDS的free属性记录。

两种优化策略：空间预分配(优化SDS字符串增长)+惰性空间释放策略

1 空间预分配

空间预分配用于优化SDS字符串增长操作：SDS的API对一个SDS进行修改，并且对SDS进行空间扩展的时候，程序不仅会为SDS分配修改必要的空间，还会为SDS分配额外的未使用空间。

额外分配的未使用空间数量由下列公式决定：

①SDS修改之后，SDS长度小于1MB那么程序分配和len属性统一大小的未使用空间，此时SDSlen属性值会和free属性值一致。例如：修改之后sds增长 len值变成13字节，那么也会分配13字节未使用空间，buf数组实际长度为13+13+1=27字节（额外的1字节用于保存空字符）

②SDS修改之后长度将>=1MB时，则程序会分配1MB未分配空间。例如修改之后SDSlen变成30MB，那么会额外分配1MB未使用空间，SDS buf数组实际长度为30MB+1MB+1byte。

空间预分配策略，Redis可以减少连续执行字符串操作所需的内存重分配次数。

例子：

执行前redis 的sds保存
sdshdr:{free 0, len 5, buf: 'R' 'e' 'd' 'i' 's' '\0'}

sdscat(s, " cluster");
这次会执行一次重分配 SDS长度修改为13字节，并且未使用空间也修改为13字节（此时buf数组实际长度为13+13+1=27字节）
sdshdr:{free 13, len 13, buf: 'R' 'e' 'd' 'i' 's' ‘ ' ‘c’ 'l' 'u' 's' 't' 'e' 'r' \0'}

再对s执行操作
sdscat(s, " Tutorial");
这次就不用重新分配内存，未使用的13字节可以存储

扩展SDS空间之前，SDS API会先检查使用空间是否足够，如果足够API就会直接使用未使用的空间，不用执行内存重分配。

重分配策略SDS将连续增长N次字符串所需要的内存重分配此处从必定N次降低为最多N次。

2 惰性空间释放

用于优化SDS字符缩短操作：当SDS的API需要缩短SDS保存的字符串，程序并不立即使用内存重分配来回收缩短后多出来的字节，而是使用free属性将字节数量记录起来，等待将来使用。

例如截断函数:sdstrim函数，接收一个SDS和一个字符串作为参数，移除SDS中所有C字符串中出现的字符

在这里插入图片描述

sdstrim(s, “XY”); //移除SDS字符串中所有的‘X’和‘Y’

在这里插入图片描述

执行sdstrim之后SDS没有立刻释放多出来的8字节，而是将8字节空间作为未使用的空间保存在sds中，如果将来对SDS进行增长操作，这些未使用的空间就可能可以被拥塞。

SDS也提供了API在有需要的时候真正的释放SDS未使用的空间，所以不用担心惰性空间释放策略会造成内存浪费。

sdshdr: {free 0, len 11, buf :'X' 'Y' 'X' 'a‘ 'Y' 'Y' 'b' ’c' ‘X’ ‘Y’ ‘\0’ }

sdstrim(s, "XY"); //移除SDS字符串中所有的‘X’和‘Y’
会将sds转换为
sdshdr: {free 8, len 3, buf :'a' 'b' ’c' ‘\0’ }

（4）二进制安全（可以保存任意格式的二进制数据）

C字符串中必须符合某种编码，并且除了字符串的末尾，字符串里面不能包含空字符，否则最先被程序读入的空字符串将被误认为是字符串结尾，这些限制导致C字符串只能保存文本数据，不能保存图片音频等等二进制数据。

数据库虽然一般用于保存文本数据，但是使用数据库来保存二进制数据的场景不少见，因此为了确保Redis可以适用于各种不同的使用场景，sds的api都是二进制安全的(binary-safe)，所有sds API可以以处理二进制的方式来处理sds存在buf数组里面的数据，不会对其中的数据进行限制过滤，写入的时候是什么样的读出就是什么样。

SDS的buf属性可以称为字节数组【Redis不是用这个数组存字符，而是保存一系列的二进制数据】

SDS使用len属性值而不用’\0’空字符串来判断字符串是否结束。

通过SDS，而不是C字符串，使得Redis不仅可以保存文本数据，还可以保存任意格式的二进制数据。

（5）兼容部分C字符串函数

SDS api都是二进制安全的，但是一样遵循C字符串以空字符串结尾的管理，API会将SDS宝UC你的数据尾部设置为空字符’\0’，为了让这些保存文本数据的SDS可以重用一部分<string.h>库的函数。

例如有一个保存文本的SDS值 sds。可以重用strcasecmp函数对比SDS的字符串与另外一个字符串：

strcasecmp(sds->buf, "hello world");

Redis就不用专门重写一个函数对比SDS与C字符串。

区别表格：

C字符串	SDS
获取字符串长度的复杂度为O(N)	获取字符串长度复杂度为O(1)
API不安全可能会缓冲区溢出	API安全，不会造成缓冲区溢出
修改字符串长度N次必须执行N次内存重分配	修改字符串长度N次最多需要N次内存重分配
只能保存文本数据	可以保存文本数据或二进制数据
可以使用所有<string.h>库中的函数	可以使用一部分<string.h>库中的函数

4、SDS API

函数	作用	时间复杂度
sdsnew	创建一个包含给定C字符串的SDS	O(N),N为给定C字符串的长度
sdsempty	创建一个不包含任何内容的空SDS	O(1)
sdsfree	释放给定的SDS	O(N), N为被释放的SDS长度
sdslen	返回SDS已经使用空间字节数	可以读取SDS len属性值来直接获得复杂度O(1)
sdsavail	返回SDS的未使用空间字节数	直接读取SDS free属性来获得复杂度O(1)
sdsdup	创建一个给定SDS的副本（copy）	O(N),N为给定SDS的长度
sdsclear	清空SDS保存的字符串内容	因为惰性释放策略，复杂度为O(1)
sdscat	将给定C字符串拼接到SDS字符串的末尾	O(N),N为被拼接C字符串的长度
sdscatsds	将给定SDS字符串评价到另外一个SDS末尾	O(N),N为被拼接SDS字符串的长度
sdscpy	将给定的C字符串复制到SDS里面，覆盖原来的字符串	O(N),N为被复制C字符串的长度
sdsgrowzero	用空字符串将SDS扩展至给定长度	O(N),N为扩展新增的字节数
sdsrange	保存SDS给定区间的数组，不再区间内的会被清除或覆盖	O(N),N为被保留数据字节数
sdstrim	接收一个SDS和一个C字符串作为参数从SDS中移除所有在C字符串中出现过的字符	O(N^2),N为给定C字符串长度
sdscmp	对比两个SDS是否相同	O(N),N为两个SDS中较短的长度

5、重点小结

1、Redis只会使用C字符作为字面量，大多数情况下，Redis使用SDS（Simple Dynamic String，简单动态字符串）作为字符串表示。

2、比起C字符串，SDS有以下的优点：

（1）常数复杂度获取字符串长度

（2）防止缓冲区溢出

（3）减少修改字符串时内存重分配次数

（4）二进制安全

（5）兼容部分C字符串函数

5、重点小结

1、Redis只会使用C字符作为字面量，大多数情况下，Redis使用SDS（Simple Dynamic String，简单动态字符串）作为字符串表示。

2、比起C字符串，SDS有以下的优点：

（1）常数复杂度获取字符串长度

（2）防止缓冲区溢出

（3）减少修改字符串时内存重分配次数

（4）二进制安全

（5）兼容部分C字符串函数

大脸猫Coding

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【Redis 数据结构与对象】简单动态字符串SDS

【Redis 数据结构与对象】简单动态字符串SDS1、概述Redis没有直接使用C语言的传统字符串标识（以空字符结尾的字符数组），而是自己构建了一种简单动态字符串（simple dynamic string, SDS)的抽象类型，并且将SDS作为Redis的默认字符串。Redis中，C字符串只会用于保存字符串字面量，用于无需对字符串进行修改的地方，例如打印日志。redisLog(REDIS_WARNING, "Redis is now ready to exit....")当redis需要的不仅
复制链接

扫一扫