一个简单的字符串,为什么 Redis 要设计的如此特别

struct attribute ((packed)) sdshdr8 {

uint8_t len; //已使用空间大小

uint8_t alloc; //总共申请的空间大小(包括未使用的)

unsigned char flags; //用来表示当前sds类型是sdshdr8还是sdshdr16等

char buf[]; //真实存储字符串的字节数组

};

可以看到相比较于 Redis 3.2 版本之前的 sds 主要是修改了 free 属性然后新增了一个flags 标记来区分当前的 sds 类型。

sds 空间分配策略

==============

C 语言中因为字符串内部没有记录长度,所以如果扩充字符串的时候非常容易造成 缓冲区溢出(buffer overflow) 。

请看下面这张图,假设下面这张图就是内存里面的连续空间,可以很明显的看到,此时 wolf和 Redis 两个字符串之间只有三个空位,那么这时候如果我们要将 wolf 字符串修改为 lonelyWolf ,那么就需要 6 个空间,这时候下面这个空间是放不下的,所以必须要重新申请空间,但是假如说程序员忘了申请空间,或者说申请到的空间依然不够,那么就会出现后面的 Redis 字符串中的 Red 被覆盖了:

一个简单的字符串,为什么 Redis 要设计的如此特别

同样的,假如要缩小字符串的长度,那么也需要重新申请释放内存。否则,字符串一直占据着未使用的空间,会造成 内存泄露 。

C 语言避免缓存区溢出和内存泄露完全依赖于人为,很难把控,但是使用 sds 就不会出现这两个问题,因为当我们操作 sds 时,其内部会自动执行 空间分配策略 ,从而避免了上述两种情况的出现。

空间预分配

=========

空间预分配指的是当我们通过 api 对 sds 进行扩展空间的时候,假如未使用空间不够用,那么程序不仅会为 sds 分配必须要的空间,还会额外分配未使用空间,未使用空间分配大小主要有两种情况:

  • 1、假如扩大长度之后的 len 属性小于等于 1MB (即 1024 * 1024),那么就会同时分配和 len 属性一样大小的未使用空间( 此时 buf 数组已使用空间 = 未使用空间 )。

  • 2、假如扩大长度之后的 len 属性大于 1MB ,那么就会分配 1MB 未使用空间大小。

执行空间预分配策略的好处是 提前分配了未使用空间备用后,就不需要每次增大字符串都需要分配空间,减少了内存重分配的次数。

惰性空间释放

==========

惰性空间释放指的是当我们需要通过 api 减小 sds 长度的时候,程序并不会立即释放未使用的空间,而只是更新 free 属性的值,这样空间就可以留给下一次使用。而为了防止出现内存溢出的情况, sds 单独提供给了 api 让我们在有需要的时候去真正地释放内存。

sds 和 C 语言字符串区别

===================

下面表格中列举了 Redis 中的 sds 和 C 语言中实现的字符串的区别:

一个简单的字符串,为什么 Redis 要设计的如此特别

sds 是如何被存储的

===============

在 Redis 中所有的数据类型都是将对应的数据结构再进行了再一次包装,创建了一个字典对象来存储的, sds 也不例外。每次创建一个 key-value 键值对, Redis 都会创建两个对象,一个是键对象,一个是值对象。而且需要注意的是 在 Redis 中,值对象并不是直接存储,而是被包装成 redisObject 对象 ,并同时将键对象和值对象通过dictEntry 对象进行封装,如下就是一个 dictEntry 对象:

typedef struct dictEntry {

void *key;//指向key,即sds

union {

void *val;//指向value

uint64_t u64;

int64_t s64;

double d;

} v;

struct dictEntry *next;//指向下一个key-value键值对(哈希值相同的键值对会形成一个链表,从而解决哈希冲突问题)

} dictEntry;

redisObject 对象的定义为:

typedef struct redisObject {

unsigned type:4;//对象类型(4位=0.5字节)

unsigned encoding:4;//编码(4位=0.5字节)

unsigned lru:LRU_BITS;//记录对象最后一次被应用程序访问的时间(24位=3字节)

int refcount;//引用计数。等于0时表示可以被垃圾回收(32位=4字节)

void *ptr;//指向底层实际的数据存储结构,如:sds等(8字节)

} robj;

当我们在 Redis 客户端中执行命令 set name lonely_wolf ,就会得到下图所示的一个结构(省略了部分属性):

一个简单的字符串,为什么 Redis 要设计的如此特别

看到这个图想必大家会有疑问,这里面的 type 和 encoding 到底是什么呢?其实这两个属性非常关键, Redis 就是通过这两个属性来识别当前的 value 到底属于哪一种基本数据类型,以及当前数据类型的底层采用了何种数据结构进行存储。

type 属性

===========

type 属性表示对象类型,其对应了 Redis 当中的 5 种基本数据类型:

一个简单的字符串,为什么 Redis 要设计的如此特别

可以看到,这就是对应了我们 5 种常用的基本数据类型。

encoding 属性

===============

Redis 当中每种数据类型都是经过特别设计的,相信大家看完这个系列也会体会到Redis 设计的精妙之处。字符串在我们眼里是非常简单的一种数据结构了,但是Redis 却把它优化到了极致,为了节省空间,其通过编码的方式定义了三种不同的存储方式:

一个简单的字符串,为什么 Redis 要设计的如此特别

  • int 编码

当我们用字符串对象存储的是整型,且能用 8 个字节的 long 类型进行表示(即 2 的 63 次方减 1 ),则 Redis 会选择使用 int 编码来存储,此时redisObject 对象中的 ptr 指针直接替换为 long 类型。我们想想 8 个字节如果用字符串来存储只能存 8 位,也就是千万级别的数字,远远达不到 2 的 63次方减 1 这个级别,所以如果都是数字,用 long 类型会更节省空间。

  • embstr 编码

当字符串对象中存储的是字符串,且长度小于 44 ( Redis 3.2 版本之前是 39)时, Redis 会选择使用 embstr 编码来存储。

  • raw 编码

当字符串对象中存储的是字符串,且长度大于 44 时, Redis 会选择使用 raw编码来存储。

讲了半天理论,接下来让我们一起来验证下这些结论,依次输入 set name lonely_wolf , type name , object encoding name 命令:

一个简单的字符串,为什么 Redis 要设计的如此特别

可以发现当前的数据类型就是 string ,普通字符串因为长度小于 44 ,所以采用的是embstr编码。

再依次输入: set num 1111111111 , set address aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa (长度 44 ), set address aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa (长度 45 ),分别查看类型和编码:

一个简单的字符串,为什么 Redis 要设计的如此特别

可以发现,当输入纯数字的时候,采用的是 int 编码,而字符串小于等于 44 则为embstr ,大于 44 则为 raw 编码。

字符串对象中除了上面提到的纯整数和字符串,还可以存储浮点型类型,所以字符串对象可以存储以下三种类型:

  • 字符串

  • 整数

  • 浮点数

而当我们的 value 为整数时,还可以使用原子自增命令来实现 value 的自增,这个命令在实际开发过程中非常实用。

  • incr :自增 1 。

  • incrby :自增指定数值。

一个简单的字符串,为什么 Redis 要设计的如此特别

不过这两个命令只能用在 value 为整数的场景,当 value 不是整数时则会报错。

embstr 编码为什么从 39 未修改为 44 位

==============================

embstr 编码中, redisObject 和 sds 是连续的一块内存空间,这块内存空间 Redis限制为了 64 个字节,而 redisObject 固定占了16字节(上面定义中有标注),Redis 3.2 版本之前的 sds 占了 8 个字节,再加上字符串末尾 \0 占用了 1 个字节,所以: 64-16-8-1=39 字节。

Redis 3.2 版本之后 sds 做了优化,对于 embstr 编码会采用 sdshdr8 来存储,而sdshdr8占用的空间只有 24 位: 3 字节(len+alloc+flag)+ \0 字符(1字节),所以最后就剩下了: 64-16-3-1=44 字节。

embstr 编码和 raw 编码的区别
自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。

深知大多数Java工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年Java开发全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上Java开发知识点,真正体系化!

由于文件比较大,这里只是将部分目录截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且会持续更新!

如果你觉得这些内容对你有帮助,可以扫码获取!!(备注Java获取)

img

最后

俗话说,好学者临池学书,不过网络时代,对于大多数的我们来说,我倒是觉得学习意识的觉醒很重要,这是开始学习的转折点,比如看到对自己方向发展有用的信息,先收藏一波是一波,比如如果你觉得我这篇文章ok,先点赞收藏一波。这样,等真的沉下心来学习,不至于被找资料分散了心神。慢慢来,先从点赞收藏做起,加油吧!

另外,给大家安排了一波学习面试资料:

image

image

以上就是本文的全部内容,希望对大家的面试有所帮助,祝大家早日升职加薪迎娶白富美走上人生巅峰!
《互联网大厂面试真题解析、进阶开发核心学习笔记、全套讲解视频、实战项目源码讲义》点击传送门即可获取!
被找资料分散了心神。慢慢来,先从点赞收藏做起,加油吧!

另外,给大家安排了一波学习面试资料:

[外链图片转存中…(img-aLzkCPBg-1713559912431)]

[外链图片转存中…(img-G6GOnxFG-1713559912435)]

以上就是本文的全部内容,希望对大家的面试有所帮助,祝大家早日升职加薪迎娶白富美走上人生巅峰!
《互联网大厂面试真题解析、进阶开发核心学习笔记、全套讲解视频、实战项目源码讲义》点击传送门即可获取!

  • 21
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值