01、字符传实现为什么是SDS而不是char*?

问题:

1. sds 是什么 ?

2. sds 相对于char * 有什么好处 ?解决了哪些疑难杂症?

3. sds 有什么不足?可以优化的点?

思考下:

平常工作开发中,我们记录一条用户信息、订单信息,redis内部是怎么帮我们把数据存起来的呢,是随意allot 一个内存,放进去嘛 ?

键值对中的键是字符串,值有时也是字符串。我们在 Redis 中写入一条用户信息,记录了用户姓名、性别、所在城市等,这些都是字符串,如下所示:

SET user:id:100 {"name": "zhangsan", "gender": "M","city":"beijing"}

大家如果有实际使用过redis那么都应该知道,类似这种字符串的操作在Redis中其实是最常见的,那么既然它被使用这么频繁,字符串的存储需要满足什么要求吗 ?

  1. 能支持丰富且高效的字符串操作,比如字符串追加、拷贝、比较、获取长度等;
  2. 能保存任意的二进制数据,比如图片等 能尽可能地节省内存开销。

在C语言中,使用char来实现字符串存储,定义了很多方法来满足日常开发,比如字符串比较函数 strcmp、字符串长度计算函数 strlen、字符串追加函数 strcat 等。那么下面来看下为什么不能直接使用Char

为什么Redis 不使用C的char呢 ?

首先redis是一个纯内存操作,结合它的使用属性,可以想到redis 要求性能高、存储小等特点,那么反过来看下char是否可以满足呢?

首先以字符串‘redis’为例看下使用char的存储结构,一块连续的内存空间,依次存放了字符串中的每一个字符数组结构。

\0 ,表示一个字符串的结尾,在C语言中,char* 指针只是指向字符数组的起始位置,而字符数组的结尾位置就用”\0"表示

如strlen 函数流程:

通过一段代码,可以更清晰看到\0的作用,这里我创建了两个字符串变量 a 和 b,分别给它们赋值为"red\0is"和"redis\0”。然后,我用 strlen 函数计算这两个字符串长度,如下所示:

  include <stdio.h>
  include <string.h>
  int main()
  {
     char *a = "red\0is";
     char *b = "redis\0";
     printf("%lu\n", strlen(a));
     printf("%lu\n", strlen(b));
     return 0;
  }

代码执行后,输出结果分别是3和5,a =3 , b= 5 字节。那么看到这问题也就出来了,我们都知道Redis是有保存二进制数据的需求的。如果使用char来存储会使二进制数据被截断,完全支持不了。

另外,回过来看strlen函数,虽然可以计算字符串长度,但是它也会带来另一方面的负面影响,也就是会导致操作函数的复杂度增加。需要遍历字符数组中的每一个字符,才能得到字符串长度,所以这个操作函数的复杂度是 O(N)。

再来看另一个函数,也是常用的strcat追加功能。strcat 函数是将一个源字符串 src 追加到一个目标字符串的末尾。该函数的代码如下所示:

  char *strcat(char *dest, const char *src) {
     //将目标字符串复制给tmp变量
     char *tmp = dest;
     //用一个while循环遍历目标字符串,直到遇到"\0"跳出循环,指向目标字符串的末尾
     while(*dest)
        dest++;
     //将源字符串中的每个字符逐一赋值到目标字符串中,直到遇到结束字符
     while((*dest++ = *src++) != '\0' )
     return tmp;
  }

从代码中可以看到,strcat 函数和 strlen 函数类似,复杂度都很高,也都需要先通过遍历字符串才能得到目标字符串的末尾。对于 strcat 函数来说,还要再遍历源字符串才能完成追加。另外,它在把源字符串追加到目标字符串末尾时,还需要确认是否空间足够。

SDS的设计

SDS(即简单动态字符串)的数据结构。下面我们一起来看看SDS 结构设计

SDS 结构里包含了一个字符数组 buf[],用来保存实际数据。同时,SDS 结构里还包含了三个元数据,分别是字符数组现有长度 len 、分配给字符数组的空间长度 alloc ,以及 SDS 类型 flags

typedef char *sds;

Redis 源码中 SDS 的定义,Redis 使用 typedef 给 char* 类型定义了一个别名,这个别名就是 sds。如上。那么到这里也可看得出本质其实还是个字符数组,只是在字符数组基础上增加了额外的元数据。

接下来,看下sdsnewlen 函数:

sds sdsnewlen(const void *init, size_t initlen) {
    void *sh;  //指向SDS结构体的指针
    sds s;     //sds类型变量,即char*字符数组
    ...
    sh = s_malloc(hdrlen+initlen+1);   //新建SDS结构,并分配内存空间
    ...
    s = (char*)sh+hdrlen;              //sds类型变量指向SDS结构体中的buf数组,sh指向SDS结构体起始位置,hdrlen是SDS结构体中元数据的长度
    ...
    if (initlen && init)
        memcpy(s, init, initlen);    //将要传入的字符串拷贝给sds变量s
    s[initlen] = '\0';               //变量s末尾增加\0,表示字符串结束
    return s;

详细说下,创建一个SDS的过程:sdsnewlen 函数会新建 sds 类型变量(也就是 char* 类型变量),并新建 SDS 结构体,把 SDS 结构体中的数组 buf[] 赋给 sds 类型变量。最后,sdsnewlen 函数会把要创建的字符串拷贝给 sds 变量。

到此,我们已经了解SDS底层数据结构,那么对比一下与传统的C语言操作字符串,SDS有哪些优点:SDS 结构中记录了字符数组已占用的空间和被分配的空间,提高读写效率。同样以字符串追加为例,Redis 中实现字符串追加的函数是 sds.c 文件中的 sdscatlen 函数。

sds sdscatlen(sds s, const void *t, size_t len) {
    //获取目标字符串s的当前长度
    size_t curlen = sdslen(s);
    //根据要追加的长度len和目标字符串s的现有长度,判断是否要增加新的空间
    s = sdsMakeRoomFor(s,len);
    if (s == NULL) return NULL;
    //将源字符串t中len长度的数据拷贝到目标字符串结尾
    memcpy(s+curlen, t, len);
    //设置目标字符串的最新长度:拷贝前长度curlen加上拷贝长度
    sdssetlen(s, curlen+len);
    //拷贝后,在目标字符串结尾加上\0
    s[curlen+len] = '\0';
    return s;
}

同样,我们来画个流程图来梳理一下sdscatlen执行流程:

和char操作相比,SDS 通过记录字符数组的使用长度和分配空间大小,避免了对字符串的遍历操作,降低了操作开销,进一步就可以帮助诸多字符串操作更加高效地完成.

紧凑型字符串结构

        简单点说,sds设计了不同的结构头(也就是不同的类型),为了能灵活的保存不同大小的字符串,从而有效节省内存空间。保存不同大小的字符串时,结构头占用的内存空间也不一样,在保存小字符串时,结构头占用的空间也比较少。

        官方话语来说就是:SDS 一共设计了 5 种类型,分别是 sdshdr5、sdshdr8、sdshdr16、sdshdr32 和 sdshdr64。主要区别就在于,它们数据结构中的字符数组现有长度 len 和分配空间长度 alloc,这两个元数据的数据类型不同。

// attribute__ (__packed__) 采用紧凑的方式分配内存
struct __attribute__ ((__packed__)) sdshdr8 {
    uint8_t len; /* 字符数组现有长度*/
    uint8_t alloc; /* 字符数组的已分配空间,不包括结构体和\0结束字符*/
    unsigned char flags; /* SDS类型*/
    char buf[]; /*字符数组*/
};

上面代码片段可以看到,len、 alloc 都是uint_t 类型。是一个8位无符号整数,每个占用一个字节的空间,也就是说当字符串类型是 sdshdr8 时,它能表示的字符数组长度2的8次方。

同理, sdshdr16、sdshdr32、sdshdr64 三种类型来说,它们的 len 和 alloc 数据类型分别是 uint16_t、uint32_t、uint64_t,即它们能表示的字符数组长度,分别不超过 2 的 16 次方、32 次方和 64 次方。

说到这里也就大概了解不同的类型的作用了,那么还有一点要提一下,字节对齐方式和紧凑的方式分配内存

对齐和紧凑分配内存

        在默认情况下,编译器会按照 8 字节对齐的方式,给变量分配内存。也就是说,即使一个变量的大小不到 8 个字节,编译器也会给它分配 8 个字节。

看下面的两个例子,大概就懂了

 include <stdio.h>
  int main() {
     struct s1 {
        char a;
        int b;
     } ts1;
     printf("%lu\n", sizeof(ts1));
     

    struct __attribute__((packed)) s2{
        char a;
        int b;
     } ts2;
     printf("%lu\n", sizeof(ts2));
  }

char 类型占用 1 个字节,int 类型占用 4 个字节.,sizeof(ts1) ==8 , sizeof(ts2) == 5,剩下的自己琢磨啦

小结

加油、学到就是赚到,哪怕应付面试呢

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值