现在我们总结一下SDS和C语言中实现的字符串的区别
| C字符串 | SDS |
| — | — |
| 只能保存文本类不含空字符串’\0’数据 | 可以保存文本或者二进制数据,允许包含空字符串’\0’ |
| 获取字符串长度的复杂度为O(n) | 获取字符串长度的复杂度为O(1) |
| 操作字符串可能会造成缓冲区溢出 | 不会出现缓冲区溢出情况 |
| 修改字符串长度N次,必然需要N次内存重分配 | 修改字符串长度N次,最多需要N次内存重分配 |
| 可以使用C字符串相关的所有函数 | 可以使用C字符串相关的部分函数 |
=======================================================================
上面讲了这么多,可能很多人会以为Redis底层就是直接用了SDS数据结构来存储,然而实际上并不是,我们回想一下Redis的全称是远程字典服务,所以在Redis中所有的数据类型都是将对应的数据结构再进行了一次包装,创建了一个字典对象来存储的。
每次创建一个key-value键值对,Redis都会创建两个对象,一个是键对象,一个是值对象,而且在Redis中,任何一个对象总是被包装成redisObject
对象,并同时将键对象和值对象通过dictEntry
对象进行封装,如下就是一个dictEntry
对象(源码dict.h内):
typedef struct dictEntry {
void *key;//指向key,即SDS
union {
void *val;//执行value,即5大常用数据类型
uint64_t u64;
int64_t s64;
double d;
} v;
struct dictEntry *next;//指向下一个key-value键值对(哈希值相同的键值对会形成一个链表,这种方式可以解决哈希冲突问题)
} dictEntry;
当我们执行如下命令:
set name lonely_wolf
会得到这样的一个对象(省略了一些无关的属性):
上面的redisObject
就是我们的值对象(实际上key也是一个redisObject对象)如下就是一个redisObject
对象的数据结构定义(源码server.h内):
typedef struct redisObject {
unsigned type:4;//对象类型(4位=0.5字节)
unsigned encoding:4;//编码(4位=0.5字节)
unsigned lru:LRU_BITS;//记录对象最后一次被应用程序访问的时间(24位=3字节)
int refcount;//引用计数。等于0时表示可以被垃圾回收(32位=4字节)
void *ptr;//指向底层实际的数据存储结构,如:SDS等(8字节)
} robj;
所以,最终我们可以把上面的图简化为如下图所示([x]会根据长度选择为合适的值):
对象类型type
对象类型即redisObject
中的type属性,主要分为以下5种:
| 类型属性 | 描述 | type命令返回值 |
| — | — | — |
| REDIS_STRING | 字符串对象 | string |
| REDIS_LIST | 列表对象 | list |
| REDIS_HASH | 哈希对象 | hash |
| REDIS_SET | 集合对象 | set |
| REDIS_ZSET | 有序集合对象 | zset |
可以看到,这就是对应了我们5种常用的基本数据类型。
编码encoding
编码即redisObject
中的encoding
属性。我们可以使用命令 object encoding
来查看当前对象的编码。
从上图也可以看到,在字符串对象中,主要有3种编码类型,如下表所示:
| 编码属性 | 描述 | object encoding命令返回值 |
| — | — | — |
| OBJ_ENCODING_INT | 使用整数的字符串对象 | int |
| OBJ_ENCODING_EMBSTR | 使用embstr编码的SDS实现的字符串对象 | embstr |
| OBJ_ENCODING_RAW | 使用SDS实现的字符串对象 | raw |
- int编码
当我们用字符串对象存储的是整型,且能用8个字节的long类型进行表示(即263-1),则Redis会选择使用int编码来存储,而且此时redisObject
对象中的ptr指针直接替换为long类型。
- embstr编码
当字符串对象中存储的是字符串,且长度小于44(3.2版本之前是39)时,Redis会选择使用embstr编码来存储。
- raw编码
当字符串对象中存储的是字符串,且长度大于44时,Redis会选择使用raw编码来存储。
embstr编码为什么从39位修改为44位
embstr编码中,redisObject和SDS是连续的一块内存空间,这块内存空间Redis限制为了64个字节,而redisObject占了16字节,Redis3.2版本之前的sds占了8个字节,再加上字符串末尾’\0’占用了1个字节,所以:64-16-8-1=39字节。
Redis3.2之后sds做了优化,对于embstr编码会采用sdshdr8来存储,而sdshdr8占用的空间只有24位:3字节(len+alloc+flag)+1字节(’\0’字符),所以最后就剩下了:64-16-3-1=44字节。
embstr编码和raw编码的区别
embstr编码是一种优化的存储方式,其在申请空间的时候使得redisObject
和SDS两个对象是一个连续空间,所以只需要申请1次空间(同样的,释放内存也只需要1次),而raw编码因为redisObject和SDS两个对象的空间是不连续的,所以使用的时候需要2次申请空间(同样的,释放内存也需要2次)。但是使用embstr编码时,假如需要修改字符串,那么因为redisObject和SDS是在一起的,所以两个对象都需要重新申请空间,为了避免这种情况发生,embstr编码的字符串是只读的,不允许修改。
上图中的示例我们看到,对一个embstr
编码的字符串对象进行append操作时,长度还没有达到45,但是编码已经被修改为raw
了,这就是因为embstr
编码是只读的,如果需要对其修改,Redis内部会将其修改为raw
编码之后再操作。同样的,如果是操作int编码的字符串之后,导致long类型无法存储时(int类型不再是整数或者长度超过263-1时),也会将int编码修改为raw编码。
PS:需要注意的是,编码一旦升级(int–>enmstr–>raw),即使后期再把字符串修改为符合原内存编码的存储格式时,编码也不会回退。
最近访问时间lru
这个属性记录了对象最后一次被访问的时间,可以通过命令object idletime
得到当前对象的空闲时间,即:当前时间-lru时间。
需要注意的是 object idletime
命令本身不会记录到lru属性。
当我们开启了maxmemory
时,而且回收内存算法属性maxmemory-policy配置为volatile-lru
或者allkeys-lru
时候,当达到maxmemory
设定值时,空闲时间最长的key会被优先回收。
maxmemory 512MB #不带单位则默认是字节
maxmemory-policy volatile-lru
引用计数refcount
C语言本身并没有提供内存回收机制,所以Redis自己实现了一种简单的引用计数法来进行垃圾回收,简单来说就是当前对象被引用1次,计数就+1,当refcount等于0时表示当前对象没有任何引用,可以被垃圾回收。想要详细了解垃圾回收算法的,可以点击这里。
===============================================================
本文主要介绍了Redis中五种常用类型中最常用的一种字符串数据对象进行了分析,其底层采用了SDS来存储,并进一步分析了SDS是如何被包装以及其内存分配策略和空间释放策略,及其编码类型等,在文中,我们也将其和C语言的字符串进行了对比,进一步分析了为什么Redis最终选择使用SDS来替换C语言中的字符串。
总结
面试建议是,一定要自信,敢于表达,面试的时候我们对知识的掌握有时候很难面面俱到,把自己的思路说出来,而不是直接告诉面试官自己不懂,这也是可以加分的。
以上就是蚂蚁技术四面和HR面试题目,以下最新总结的最全,范围包含最全MySQL、Spring、Redis、JVM等最全面试题和答案,仅用于参考
等,在文中,我们也将其和C语言的字符串进行了对比,进一步分析了为什么Redis最终选择使用SDS来替换C语言中的字符串。
总结
面试建议是,一定要自信,敢于表达,面试的时候我们对知识的掌握有时候很难面面俱到,把自己的思路说出来,而不是直接告诉面试官自己不懂,这也是可以加分的。
以上就是蚂蚁技术四面和HR面试题目,以下最新总结的最全,范围包含最全MySQL、Spring、Redis、JVM等最全面试题和答案,仅用于参考
[外链图片转存中…(img-d4mVJKP3-1714519181685)]