关闭

Redis源码分析(一)——Redis数据结构-字符串SDS

标签: redisstringc语言数据结构源码
1758人阅读 评论(0) 收藏 举报
分类:

这里写图片描述

1. SDS简介

  • Redis中使用的字符串均为『简单动态字符串』(Simple Dynamic String),简称SDS。
  • SDS是在C字符串的基础上进行了一些包装,使得它更符合Redis的使用场景。
  • 在Redis中,C字符串只用在一些无需修改的地方,如日志打印;其他需要使用字符串的地方基本上使用的都是SDS。

2. 数据结构

struct sdshdr{
  int len;
  int free;
  char buf[];
};
  • len:buf数组中字符串的实际使用量。
  • free:buf数组中空闲量。
  • buf:存储字符的数组。

3. SDS的优点

Redis使用C语言编写,而Redis不使用C语言字符串是有原因的,Redis中的SDS字符串与C字符串相比有如下优点。

3.1 获取字符串长度效率高

C语言字符串是不记录字符串长度的,所以每次获取字符串长度时,都要对字符数组进行一次遍历,那么时间复杂度就为O(n)。
而SDS中采用len记录当前字符串的长度,所以统计字符串长度的时间复杂度为O(1),因此效率高于C字符串。

3.2 避免了缓冲区溢出

3.2.1 什么是『缓冲区溢出』?

当使用strcat(char *dest, char *src)拼接两个字符串时,strcat是默认第一个字符数组的后面是有足够空间的,它会直接把第二个字符数组中的字符挨个复制到第一个字符数组的后面。
那么问题就来了,如果这两个字符数组的内存空间是紧挨着的,那么当执行strcat时,第二个字符数组的就会被覆盖掉。这就是缓冲区溢出。
所以在使用strcat拼接两个字符串前,一定要先判断第一个字符串后面是否有足够的内存空间;如果不够了,那就得手动扩容。那么这一系列判断+扩容操作都是需要程序员自己去完成的,有些麻烦。

3.2.2 Redis如何避免缓冲区溢出?

而SDS提供的所有修改字符串的API中,都会判断修改之后是否会内存溢出,如果会内存溢出,它会帮你进行内存扩容。
所以对于SDS而言,这一系列操作都由它来帮你完成,无需程序员手动判断。

3.3 减少修改字符串时内存重分配的次数

3.3.1 什么是『内存重分配』?

  • 当我们使用append扩充字符串时,我们首先要扩充当前字符数组的内存,然后再将第二个字符数组中的值一一复制进来,否则就有可能出现『缓冲区溢出』。这个过程就是『内存重分配』。
  • 当我们需要截取字符串后,我们需要释放已经不被使用的内存空间,否则就可能出现『内存泄露』。这个过程也是『内存重分配』。

内存重分配过程会涉及复杂的算法和系统调用,较为耗时。如果像C字符串那样,每次修改字符串都要进行一次内存重分配,那么效率是极底的,所以SDS使用了『空间预分配』和『惰性空间释放』降低了重分配的频率,从而提升效率。

3.3.2 SDS如何减少内存重分配次数?

  1. 空间预分配
    当需要扩展SDS长度的时候,Redis不仅会给它分配所需的内存空间,还会分配一段额外的空间作为备用。
    备用空间大小按照如下公式计算:

    • 如果扩展之后,SDS字符数组的长度小于1M,那么就使得备用空间的大小和字符串实际长度保持一致,即:len==free;
    • 如果扩展之后,SDS字符数组的长度大于1M,那么备用空间的大小就设置成1M。
      那么这样的话,当要append时,直接使用备用空间即可,无需再次扩容啦,从而减少了内存重分配的次数。SDS将连续增长N次字符串所需的内存重分配次数从『必定N次』减少到了『最多N次』。
  2. 惰性空间释放
    当需要缩短字符串时,SDS不会立即释放多于的内存空间,而是将其保留,修改free值。这样的话,当下次需要扩容时,直接使用这部分内存空间即可,减少了内存重分配的次数。

3.4 二进制安全 binary-safe

3.4.1 什么是『二进制安全』?

所谓『二进制安全』就是:往SDS里面放什么数据,取出来还是什么数据。SDS不会对存储的这些数据做任何修改、限制、过滤等。

3.4.2 SDS如何保证二进制安全?

C字符串对存入的字符串是有严格要求的:
1. 必须符合某种编码(如ASKII)
2. 不能含有空格

而SDS对于存储的数据没有任何限制,因此称为『二进制安全』。

3.5 兼容C字符串

C字符串要求字符数组的末尾必须是\0,作为字符串尾的标记。而SDS中的字符数组也遵循了这一规范,所以仍然可以使用C字符串相关函数,因此避免了重复代码。

这里写图片描述

1
0
查看评论

【Redis源码剖析】 - Redis内置数据结构之字符串sds

今天花了一个晚上的时间分析了Redis中字符串操作的实现,源文件为sds.h和sds.c。
  • Xiejingfa
  • Xiejingfa
  • 2016-03-28 21:07
  • 4127

Redis深入理解-数据结构篇(1)-简单动态字符串SDS

Redis没有直接使用C语言中的字符串,而是自己构建了SDS这样的一种简单动态字符串,并且将他作为Redis中字符串的默认的表示,个人认为,Redis并未完全抛弃C语言字符串,只不过是在C语言字符串的基础上,通过封装其他的属性,构造出一个更加高效的字符串的封装结构,在早些的版本中记录了其长度(实际使...
  • wangyang1354
  • wangyang1354
  • 2016-10-03 13:02
  • 2607

Redis源码分析(四)-- sds字符串

今天分析的是Redis源码中的字符串操作类的代码实现。有了上几次的分析经验,渐渐觉得我得换一种分析的方法,如果每个API都进行代码分析,有些功能性的重复,导致分析效率的偏低。所以下面我觉得对于代码的分析偏重的是一种功能整体的思维实现来讲解,其中我也会挑出一个比较有特点的方法进行拆分了解,这也可以让我...
  • Androidlushangderen
  • Androidlushangderen
  • 2014-10-08 20:29
  • 5924

redis源码分析-sds字符串

介绍 等待 简易动态的sds字符串 1.介绍 在c语言中,一般使用char*定义字符串类型,但redis却采用sds结构保存字符串。那么redis为什么弃用char而改用sds呢?这样做是基于哪方面的考虑?这样做的优点又有哪些呢? 2.char与sds比较 首先,回到原点,我们看下sd...
  • Mijar2016
  • Mijar2016
  • 2016-07-04 21:25
  • 239

Redis内部数据结构详解之简单动态字符串(sds)

本文所引用的源码全部来自Redis2.8.2版本。 Redis中简单动态字符串sds数据结构与API相关文件是:sds.h, sds.c。 转载请注明,本文出自:http://blog.csdn.net/acceptedxukai/article/details/17482611...
  • Acceptedxukai
  • Acceptedxukai
  • 2013-12-22 13:54
  • 7839

C++中string类和Redis中SDS的比较

Redis中SDS与C++中string类的比较
  • wrx1721267632
  • wrx1721267632
  • 2016-03-23 13:14
  • 393

底层实现-SDS 简单动态字符串

一 介绍 Redis只会使用C字符串作为字面量,大多数情况下,Redis使用SDS(Simple Dynamic String,简单动态字符串)作为字符串表示。也就是说,Redis中字符串的底层实现,一般就是SDS。底层依赖于C的标准类型 - 数组。 SDS与C字...
  • f88520402
  • f88520402
  • 2016-05-30 16:53
  • 657

Redis源码剖析和注释(二)--- 简单动态字符串

Redis 简单动态字符串1.介绍Redis兼容传统的C语言字符串类型,但没有直接使用C语言的传统的字符串(以’\0’结尾的字符数组)表示,而是自己构建了一种名为简单动态字符串(simple dynamic string,SDS)的对象。简单动态字符串在Redis数据库中应用很广泛,例如:键值对在底...
  • men_wen
  • men_wen
  • 2017-04-06 16:39
  • 932

【Redis源码剖析】 - Redis内置数据结构之字典dict

今天我们来讲讲Redis中的哈希表。哈希表在C++中对应的是map数据结构,但在Redis中称作dict(字典)。Redis只是用了几个简单的结构体和几种常见的哈希算法就实现了一个简单的类似高级语言中的map结构。下面我们来具体分析一下dict的实现。
  • Xiejingfa
  • Xiejingfa
  • 2016-03-30 19:08
  • 24384

【redis源码分析】动态字符串--sds

#ifndef __SDS_H #define __SDS_H #define SDS_MAX_PREALLOC (1024*1024) #include #include // sds 类型 typedef char *sds; // sdshdr 结构,注意这个结构体的大小只有4+4...
  • raiet
  • raiet
  • 2014-05-18 21:36
  • 700
    个人资料
    • 访问:361469次
    • 积分:5639
    • 等级:
    • 排名:第5541名
    • 原创:199篇
    • 转载:8篇
    • 译文:0篇
    • 评论:155条
    我的微信公众号
      大闲人柴毛毛
      一个分享技术干货和记录程序员奋斗史的地方。快关注我吧!
    博客专栏
    最新评论