【 Redis五大数据类型实现原理】，2024年最新大数据开发免打包多渠道统计如何实现

最新推荐文章于 2024-08-31 22:59:57 发布

2401_84167072

最新推荐文章于 2024-08-31 22:59:57 发布

阅读量747

点赞数 8

分类专栏： 2024年程序员学习文章标签： redis 大数据数据库

本文链接：https://blog.csdn.net/2401_84167072/article/details/137779140

版权

2024年程序员学习专栏收录该内容

69 篇文章 0 订阅

订阅专栏

先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7

深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年最新大数据全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

如果你需要这些资料，可以添加V获取：vip204888 （备注大数据）

正文

Set集合对象编码
Zset有序集合对象编码

本文内容：

Redis五大数据类型实现原理

redis

对于五大数据类型（String,list,Hash,Set,Zset）实现原理，Redis在底层用到了多种数据结构，通过数据结构来实现键值对，将数据结构创建了一个对象redisObject，根据对象的类型type，为对象设置多种不同的数据结构，对象可以执行特定的命令。

本章主要涉及到的知识点有：

redisObject的属性
五大数据类型编码

注意：本章内容每一小节可单独学习，无论先后。

redisObject属性

学完本章中，读者需要回答：

**1．Redis底层数据结构如何实现？

2．Redis是如何回收内存？**

Redis的一个键值对，有两个对象，一个是键对象，一个是值对象，键总是一个字符串对象，而值可以是字符串、列表、集合等对象，Redis中的值对象都是由 redisObject 结构来表示：

typedef struct redisObject{

//表示类型：string,list,hash,set,zset

unsigned type:4;

//编码：比如字符串的编码有int编码，embstr编码，raw编码

unsigned encoding:4;

//指向底层数据结构的指针，prt是个指针变量，存放地址，指向数据存储的位置

void *ptr;

//引用计数，类似java里的引用计数

int refcount;

//记录最后一次被程序访问的时间

unsigned lru:22;

}robj

type属性

redisObject 对象的type属性记录了对象的类型（string,list,hash,set,zset），可以通过type key命令来判断对象类型，从而区分redis中key-value的类型

127.0.0.1:6379> set testString testValue

127.0.0.1:6379> lpush testList testValue1 testValue2 testValue3

(integer) 3

127.0.0.1:6379> hmset testhash 1:testvalue 2:testvalue2

127.0.0.1:6379> sadd testset testvalue

(integer) 1

127.0.0.1:6379> zadd testzset 1 testvalue

(integer) 1

127.0.0.1:6379> type testString

string

127.0.0.1:6379> type testList

list

127.0.0.1:6379> type testhash

hash

127.0.0.1:6379> type testset

set

127.0.0.1:6379> type testzset

zset

prt和encoding属性

redisObject 对象的 prt 指针，存放数据的地址，指向对象底层的数据结构，通过它可以找到数据的位置。

refcount 属性

由于C语言跟贴近操作系统，直接跟操作系统交互，命令执行响应比较快，所以Redis选择C语言进行编写可以提高性能，但是C 语言不具备自动回收内存功能，于是乎Redis自己构建了一个内存回收机制。

创建一个新对象，redisObject 对象中的refcount属性就会加1，对象被一个新程序使用，调用incrRefCount函数进行加 1，如果有对象不再被应用程序使用了，那么它就会调用decrRefCount函数进行减 1，当对象的引用计数值为 0 的时候，那么这个对象所占用的内存就会被释放。

从这里可以看出来，这其实就是Java虚拟机中引用计数的内存回收机制，在Java中这种回收机制不被使用，因为它不能解决循环引用的问题。

循环引用举例：A引用B，B引用C，C引用A。

Redis通过在配置文件中修改相关的配置，来达到解决循环引用的问题，在Redis的配置文件里，Windows的配置文件是redis.windows.conf,Linux系统的配置文件是redis.conf。

在配置文件中有一个配置：maxmemory-policy，当内存使用达到最大值时，redis使用的清楚策略，默认配置是noeviction

1）volatile-lru 删除已有的过期时间的key

2）allkeys-lru 删除所有的key

3）volatile-random 已有过期时间的key 随机删除

4）allkeys-random 随机删除key

5）volatile-ttl 删除即将过期的key

6）noeviction 不删除任何key，只是返回一个写错误，这个是默认选项对于整数值的字符串对象（例如：1,2,3这种的）可实现内存共享。

问题：什么是内存共享？

定义：键不同，值相同。

举例：输入命令set key1 1024,键为 key1，值为1024的字符串对象，接着输入命令 set key2 1024 ，键为 key2，值为1024 的字符串对象。这个时候，有二个不同的键，一个相同的值。

实现原理：键的值，指针指向一个有值的对象，被共享的值对象引用refcount 加 1。

局限性：判断两个对象是否相等需要消耗运算的额外的时间。整数值，判断操作复杂度低；普通字符串，判断复杂度相比较而已是高的；哈希、列表、集合和有序集合，判断的复杂度更高，所以内存共享只适用于整数值的字符串。

lru 属性

Lru属性是redisObject 记录对象最后一次被命令程序访问的时间，用来辅助lru算法删除过期内存的。

在Redis 配置文件中有三个配置，最大内存配置 maxmemory，触发数据淘汰后的淘汰策略 maxmemory_policy，随机采样的精度maxmemory_samples。

当有条件符合配置文件中三个配置的时候，继续往Redis中加key时，会触发执行 lru 策略，进行内存清除。最近最少使用，lru算法根据数据的历史访问记录进行数据淘汰。

Lru策略的运行原理是数据插入到链表头部，当缓存数据被访问之后，数据会移到链表头，链表满的时候，链表尾部的数据会被丢弃。

redis配置中的淘汰策略（maxmemory_policy）对应的值：

Noeviction：缓存里的数据超过maxmemory值，这个时候如果客户端正在执行命令，会让内存分配，给客户端返回错误响应

allkeys-lru：所有的key都用LRU进行淘汰。

volatile-lru： LRU策略淘汰已经设置过过期时间的键。

allkeys-random：随机淘汰使用的。

key volatile-random：随机淘汰已设置过过期时间的key

volatile-ttl：只回收设置了过期时间的key

从redis缓存中淘汰数据，我们的需求是淘汰一些不可能被使用的数据，保留有些以后可能会频繁访问的数据，频繁访问的数据，将来被访问的可能性大很多，所以redis它记录每个数据的最后一次访问时间（lru记录的时间），通过当前时间减去键值对象lru记录的时间，最后可以计算出最少空闲时间，最少空闲时间的数据是最有可能被访问到，这就是LRU淘汰策略的设计思想，是不是很棒。

举例说明：

A数据每10s访问一次，B数据每5s访问一次，C数据每50s访问一次，|代表计算空闲时间的截止点。

在这里插入图片描述

预测被访问的概率是B > A > C。

过期key的删除策略有两种：

惰性删除：每次获取键时，都检查键是否过期，过期的话，就删除该键；未过期，就返回该键。

定期删除：每隔一段时间，进行一次检查，删除里面的过期键。

encoding属性

数据结构由 encoding 属性，也就是编码，由它来决定,可以通过object encoding key命令查看一个值对象的编码。

127.0.0.1:6379> object encoding testString

“embstr”

127.0.0.1:6379> object encoding testList

“quicklist”

127.0.0.1:6379> object encoding testhash

“ziplist”

127.0.0.1:6379> object encoding testset

“hashtable”

127.0.0.1:6379> object encoding testzset

“ziplist”

String类型编码

我们最常使用的redis的一个数据类型就是String类型，实现单值缓存，分布式锁，计数器，分布式系统全局序列号等等功能。

它的底层编码分为三种，int，raw或者embstr。

int编码：存储整数值(例如：1,2,3)，当 int 编码保存的值不再是整数值，又或者值的大小超过了long的范围，会自动转化成raw。例如：(1,2,3)->(a,b,c)

embstr编码：存储短字符串。

它只分配一次内存空间，redisObject和sds是连续的内存，查询效率会快很多，也正是因为redisObject和sds是连续在一起，伴随了一些缺点：当字符串增加的时候，它长度会增加，这个时候又需要重新分配内存，导致的结果就是整个redisObject和sds都需要重新分配空间，这样是会影响性能的，所以redis用embstr实现一次分配而后,只允许读，如果修改数据，那么它就会转成raw编码，不再用embstr编码了。

raw编码：用来存储长字符串。

它可以分配两次内存空间，一个是redisObject，一个是sds，二个内存空间不是连续的内存空间。和embstr编码相比，它创建的时候会多分配一次空间，删除时多释放一次空间。

版本区别：

embstr编码版本之间的区别：在redis3.2版本之前，用来存储39字节以内的数据，在这之后用来存储44字节以内的数据。

raw编码版本之间的区别：和embstr相反，redis3.2版本之前，可用来存储超过39字节的数据，3.2版本之后，它可以存储超过44字节的数据。

问题一：为什么是39字节？

从上面可以得知，embstr是一块连续的内存区域，由redisObject和sdshdr组成。

embstr最多占64字节场景：

redisObject占16个字节

struct RedisObject {

int4 type; // 4bits,不同的redis对象会有不同的数据类型(string、list、hash等)，type记录类型，会用到4bits。

int4 encoding; // 4bits,存储编码形式，用4bits。

int24 lru; // 24bits,用24bits记录对象的LRU信息

int32 refcount; // 4bytes = 32bits,引用计数器，用到32bits

void *ptr; // 8bytes，64-bit system,指针指向对象的具体内容，需要64bits

}

计算： 4 + 4 + 24 + 32 + 64 = 128bits = 16bytes

sdshdr占48字节

struct sdshdr {

unsigned int len;//4个字节

unsigned int free;//4个字节

char buf[];//假设buf里面是39个字节

};

if (ptr) {

memcpy(sh->buf,ptr,len);

sh->buf[len] = ‘\0’;//一个字节

sdshdr的大小为8+39+1=48

那么一个embstr最多占64字节：16+48（4+4+1+39）=64

从2.4版本开始，redis用jemalloc内存分配器，比glibc的malloc要好一些，省内存，jemalloc会分配8，16，32，64等类型字节的内存。

embstr最小为33字节场景：

从上面我们可以得知redisObject占16个字节，现在buf中取8字节。

struct sdshdr {

unsigned int len;//4个字节

unsigned int free;//4个字节

char buf[];//假设buf里面是8个字节

};

if (ptr) {

memcpy(sh->buf,ptr,len);

sh->buf[len] = ‘\0’;//一个字节

sdshdr的大小为4+4+8+1=17

计算得出：16+17(4+4+1+8)=33

8,16,32都比33字节小，所以最小分配64字节。

通过对比：

16+17(4+4+1+8)=33

16+48（4+4+1+39）=64

当字符数大于8时，会分配64字节。当字符数小于39时，会分配64字节。这个默认39就是这样来的。

问题二：为什么分界值由39字节会变成44字节？

被暴打的回答是：REDIS_ENCODING_EMBSTR_SIZE_LIMIT值被换成了44了。

##define REDIS_ENCODING_EMBSTR_SIZE_LIMIT 39

##define REDIS_ENCODING_EMBSTR_SIZE_LIMIT 44

正经的回答是：

每个sds都有一个sdshdr，里面的len和free记录了这个sds的长度和空闲空间。

struct sdshdr {

unsigned int len;

unsigned int free;

用的unsigned int可以表示很大的范围，短的sds空间被浪费了(unsigned int len和unsigned int free 8个字节)

commit之后，unsigned int 变成了uint8_t,uint16_t,uint32_t

struct attribute ((packed)) sdshdr8 {

uint8_t len; /* used */

uint8_t alloc; /* excluding the header and null terminator */

char flags; /* 2 lsb of type, and 6 msb of refcount */

char buf[];

};

struct attribute ((packed)) sdshdr16 {

uint16_t len; /* used */

uint16_t alloc; /* excluding the header and null terminator */

char flags; /* 2 lsb of type, and 6 msb of refcount */

char buf[];

};

struct attribute ((packed)) sdshdr32 {

uint32_t len; /* used */

uint32_t alloc; /* excluding the header and null terminator */

char flags; /* 2 lsb of type, and 6 msb of refcount */

char buf[];

};

struct attribute ((packed)) sdshdr64 {

uint64_t len; /* used */

uint64_t alloc; /* excluding the header and null terminator */

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化的资料的朋友，可以添加V获取：vip204888 （备注大数据）

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

sed */

uint32_t alloc; /* excluding the header and null terminator */

char flags; /* 2 lsb of type, and 6 msb of refcount */

char buf[];

};

struct attribute ((packed)) sdshdr64 {

uint64_t len; /* used */

uint64_t alloc; /* excluding the header and null terminator */

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化的资料的朋友，可以添加V获取：vip204888 （备注大数据）
[外链图片转存中…(img-MRd2yara-1713161400650)]

2401_84167072

关注

8
点赞
踩
24

收藏

觉得还不错? 一键收藏
0
评论
【 Redis五大数据类型实现原理】，2024年最新大数据开发免打包多渠道统计如何实现

键不同，值相同。
复制链接

扫一扫

专栏目录