本文链接：https://blog.csdn.net/qq_31387889/article/details/103871867

面试官：你说说redis常用数据结构有哪些呢?
面试者：String(字符串),list(链表),hash(哈希),set(集合),zset(有序集合)
面试官：那你说说redis的string的底层具体实现呢？
面试者：额？
首先我们知道redis所有的数据结构都是以一个唯一的key来作为名称，然后通过这个唯一的key去获取相应的value数据，不同的数据结构的差别就在于value的数据结构不一样。

今天我们就先从最简单的string来做一些深入的了解。字符串的使用非常的广泛，比如我们经常用来缓存用户的信息，将用户的信息通过JSON序列化成一个字符串，然后通过用户的id或者code来将序列化以后的json字符串缓存到redis中，当要使用的时候将json字符串从redis中获取到，再经过一次反序列化以后就可以获取到用户的信息了。

一:string相关的常用命令

set用来设置一个值，get用来获取一个值，exists用来判断一个key是否存在，del用来删除key
在这里插入图片描述
我们知道网络是很珍贵的资源的，有时候我们为了节省网络开销，我们能想到的最直接办法就是批量操作，redis也为我们提供了相应的批量操作命令mset和mget,进行批量的设置设置和批量获取

我们还可以对key设置过期时间，以及对set命令做一些扩展，例如setex命令在设置值的时候，顺便设置一个过期时间，或者是setnx命令，只有当一个key不存在时才能设置成功，否者失败，对于setnx命令我们最常见的一个应用场景就是分布式锁了。这个我们后面文章再专门讨论这个。
在这里插入图片描述
计数，对于value是数字类型的，我们还可以使用incrby命令，对当前的值进行自增操作，当然这个自增操作是有范围的，它的最大值是signed long的最大值，如果超过这个值，redis就会报错。对于计数我们最常见的一种用法就是用来生成分布式主建，所有服务都使用同一个可以然后进行自增，这样就能获得一个全局唯一而且不重复的id了。
在这里插入图片描述

二:上面我们对redis的string数据结构的使用和常见命令有了一些了解之后，我们接下来就可以对string的底层数据结果做一些深入了解了。

Redis的字符串名为SDS，全称为simple dynamic String,结构是一个带长度信息的字节数组。

struct SDS {
T capacity; // 数组分配的容量
T len; // 实际数据的长度
byte flags;
byte[] content; // 真的的数据是存在这个字节数组里面的。

}

capacity表示的是当前分配的字节数组的长度，而len表示的是当前字符串的真实长度，当初始化的时候，capacity和len是一样大的，但是在后期进行分配的时候，就会出现下图的情况capacity大于len，具体原因是当字符串的长度小于1M的时候，容量增加都是加倍现有的空间，当实际长度超过1M以后，实际扩容的时候，只会增加1M的空间，为什么这么操作呢？是因为如果数组没有多余的冗余空间，那么当在追加内容的时候，就必须要分配新的数组，并且将旧数组的内容拷贝过去，再追加内容，这样就分配内存和复制的开销就会比较大，所以采取了一种空间换时间的做法。但是需要我们注意的是，字符串的容量最大不能超过512M。

上面我们说到的是redis的string的数据结构，其实只是它的具体数据的存储结构，对于redis来说，每种数据结构都有一个相同的结构头，结构头的具体内容如下:

struct RedisObject {
int4 type; // 4bits,用来表示不同的对象，比如字符串，链表，集合，哈希，有序集合等
int4 encoding; // 4bits ，用来表示不同的存储结构，比如同样的都是字符串，

但是如果字符串的大小不等，那么结构也会有些差别
int24 lru; // 24bits 用来记录当前对象的lru信息
int32 refcount; // 4bytes 对象的引用计数，

当对象的引用计数为0的时候，对象就会被销毁，内存被回收
void *ptr; // 8bytes，64-bit system} robj; //指向实际存储数据的指针，

比如指向我们上面提到的那个sds

那么为什么要设计一个对象头呢？其实是因为，我们对于同样的数据结构，

如果它存储的内容的大小不一样，我们需要有不同的存储方式，存储方式需要有个地方

来保存，那么我们自然就想到设计一个公共头，来保存这些信息，可能这么说，

大家不是很理解，没关系我给大家举个实际例子，一下就明白了。
在这里插入图片描述
我们看到上面，我们都是string数据结构，但是当我们的vlaue的大小不一样的时候，conten的内容不一样，表示存储的结构不一样。
remstr和raw是string的两种存储格式，它们具体有什么区别呢？还是直接上图。

在这里插入图片描述

从上图我们可以看到，embstr这种存储结构，是将对象头和数据部分直接分配在一个连续内存空间里面的，而raw这种数据结构，是分配了两个内存空间，它们在内存上是不连续的。那么问题来了？什么时候使用embstr存储格式，什么时候使用raw存储格式呢？答案下面揭晓。

首先我们先计算一下即使不存储任何内容的embstr字符串需要多少内存呢？RedisObject+SDS，首先RedisObject需要(4+4+24+32+64)/8=16个字节，而SDS即使不存储任何内容也需要3个字节的内容，最少也需要16+3=19个字节.其次我们知道操作系统使用jmalloc和tmalloc进行内存的分配，而内存分配的单位都是2的N次方，所以是2,4,8,16,32,64等字节，为了能够容纳一个embstr，所以操作系统最少也要分配32个字节的空间，但是这样的话，能够存储的内容也太少了，根本满足不了日常使用，所以默认直接分配64个字节，在redis中，如果一个整体占用超过了64个字节空间的字符串，redis就认为是一个大字符串，使用raw格式了，那么在64个字节的情况下，除去其他部分占用的19个字节，还剩下45个字节能够使用，但是redis方便glibc函数的使用，以及方便调试和打印，在字符串内容的末尾加上了一个\0的占位符，所以实际能够使用的只有44个字节。所以我们得出结论，embstr能够最多存储4个字符串的内容。当然这些都是基于redis4.0版本得到的，其他版本因为结构不一样，可能得到的结论不一样，但是上面的内容大家不用刻意去记忆，了解一下就好。

三：总结一下，redis的string底层数据结构使用的是sds，但是sds有两种存储方式，一种是embstr，一种是raw，它们的区别在于，是否和redisObject对象头分配在一个连续的空间里面。当整体占用空间超过1M的时候，使用raw格式，当小于1M的时候使用embstr，而embstr最多能够存储44个字节的内容。当然对于redis来说，string的value最大不能超过512M。

欢迎大家关注我的公众号，第一时间获取最新文章在这里插入图片描述