关闭

深入理解Redis:底层数据结构

标签: Redis
198人阅读 评论(0) 收藏 举报
分类:

前两天网易杭州研究院的实习面试就问到了这道题:


本文转载自:http://blog.csdn.net/caishenfans/article/details/44784131

Redis对象类型简介

Redis是一种key/value型数据库,其中,每个key和value都是使用对象表示的。比如,我们执行以下代码:

[plain] view plain copy
  1. redis>SET message "hello redis"  

其中的key是message,是一个包含了字符串"message"的对象。而value是一个包含了"hello redis"的对象。

Redis共有五种对象的类型,分别是:

    类型常量 对象的名称
    REDIS_STRING 字符串对象
    REDIS_LIST 列表对象
    REDIS_HASH 哈希对象
    REDIS_SET 集合对象
    REDIS_ZSET 有序集合对象

Redis中的一个对象的结构体表示如下:

[cpp] view plain copy
  1. /* 
  2.  * Redis 对象 
  3.  */  
  4. typedef struct redisObject {  
  5.   
  6.     // 类型  
  7.     unsigned type:4;          
  8.   
  9.     // 不使用(对齐位)  
  10.     unsigned notused:2;  
  11.   
  12.     // 编码方式  
  13.     unsigned encoding:4;  
  14.   
  15.     // LRU 时间(相对于 server.lruclock)  
  16.     unsigned lru:22;  
  17.   
  18.     // 引用计数  
  19.     int refcount;  
  20.   
  21.     // 指向对象的值  
  22.     void *ptr;  
  23.   
  24. } robj;  

type表示了该对象的对象类型,即上面五个中的一个。但为了提高存储效率与程序执行效率,每种对象的底层数据结构实现都可能不止一种。encoding就表示了对象底层所使用的编码。下面先介绍每种底层数据结构的实现,再介绍每种对象类型都用了什么底层结构并分析他们之间的关系。

Redis对象底层数据结构

底层数据结构共有八种,如下表所示:

编码常量 编码所对应的底层数据结构
REDIS_ENCODING_INT long 类型的整数
REDIS_ENCODING_EMBSTR embstr 编码的简单动态字符串
REDIS_ENCODING_RAW 简单动态字符串
REDIS_ENCODING_HT 字典
REDIS_ENCODING_LINKEDLIST 双端链表
REDIS_ENCODING_ZIPLIST 压缩列表
REDIS_ENCODING_INTSET 整数集合
REDIS_ENCODING_SKIPLIST 跳跃表和字典

字符串对象

字符串对象的编码可以是int、raw或者embstr。

如果一个字符串的内容可以转换为long,那么该字符串就会被转换成为long类型,对象的ptr就会指向该long,并且对象类型也用int类型表示。

普通的字符串有两种,embstr和raw。embstr应该是Redis 3.0新增的数据结构,在2.8中是没有的。如果字符串对象的长度小于39字节,就用embstr对象。否则用传统的raw对象。可以从下面这段代码看出:

[cpp] view plain copy
  1. #define REDIS_ENCODING_EMBSTR_SIZE_LIMIT 39  
  2. robj *createStringObject(char *ptr, size_t len) {  
  3.     if (len <= REDIS_ENCODING_EMBSTR_SIZE_LIMIT)  
  4.         return createEmbeddedStringObject(ptr,len);  
  5.     else  
  6.         return createRawStringObject(ptr,len);  
  7. }  
embstr的好处有如下几点:

  • embstr的创建只需分配一次内存,而raw为两次(一次为sds分配对象,另一次为objet分配对象,embstr省去了第一次)。
  • 相对地,释放内存的次数也由两次变为一次。
  • embstr的objet和sds放在一起,更好地利用缓存带来的优势。

需要注意的是,redis并未提供任何修改embstr的方式,即embstr是只读的形式。对embstr的修改实际上是先转换为raw再进行修改。

raw和embstr的区别可以用下面两幅图所示:


列表对象

列表对象的编码可以是ziplist或者linkedlist。

ziplist是一种压缩链表,它的好处是更能节省内存空间,因为它所存储的内容都是在连续的内存区域当中的。当列表对象元素不大,每个元素也不大的时候,就采用ziplist存储。但当数据量过大时就ziplist就不是那么好用了。因为为了保证他存储内容在内存中的连续性,插入的复杂度是O(N),即每次插入都会重新进行realloc。如下图所示,对象结构中ptr所指向的就是一个ziplist。整个ziplist只需要malloc一次,它们在内存中是一块连续的区域。


linkedlist是一种双向链表。它的结构比较简单,节点中存放pre和next两个指针,还有节点相关的信息。当每增加一个node的时候,就需要重新malloc一块内存。


哈希对象


哈希对象的底层实现可以是ziplist或者hashtable。

ziplist中的哈希对象是按照key1,value1,key2,value2这样的顺序存放来存储的。当对象数目不多且内容不大时,这种方式效率是很高的

hashtable的是由dict这个结构来实现的

[cpp] view plain copy
  1. typedef struct dict {  
  2.     dictType *type;  
  3.     void *privdata;  
  4.     dictht ht[2];  
  5.     long rehashidx; /* rehashing not in progress if rehashidx == -1 */  
  6.     int iterators; /* number of iterators currently running */  
  7. } dict;  
dict是一个字典,其中的指针dicht ht[2] 指向了两个哈希表
[cpp] view plain copy
  1. typedef struct dictht {  
  2.     dictEntry **table;  
  3.     unsigned long size;  
  4.     unsigned long sizemask;  
  5.     unsigned long used;  
  6. } dictht;  
dicht[0] 是用于真正存放数据,dicht[1]一般在哈希表元素过多进行rehash的时候用于中转数据。

dictht中的table用语真正存放元素了,每个key/value对用一个dictEntry表示,放在dictEntry数组中。



集合对象

集合对象的编码可以是intset或者hashtable。

intset是一个整数集合,里面存的为某种同一类型的整数,支持如下三种长度的整数:

[cpp] view plain copy
  1. #define INTSET_ENC_INT16 (sizeof(int16_t))  
  2. #define INTSET_ENC_INT32 (sizeof(int32_t))  
  3. #define INTSET_ENC_INT64 (sizeof(int64_t))  
intset是一个有序集合,查找元素的复杂度为O(logN),但插入时不一定为O(logN),因为有可能涉及到升级操作。比如当集合里全是int16_t型的整数,这时要插入一个int32_t,那么为了维持集合中数据类型的一致,那么所有的数据都会被转换成int32_t类型,涉及到内存的重新分配,这时插入的复杂度就为O(N)了。是intset不支持降级操作。

有序集合对象

有序集合的编码可能两种,一种是ziplist,另一种是skiplist与dict的结合。

ziplist作为集合和作为哈希对象是一样的,member和score顺序存放。按照score从小到大顺序排列。它的结构不再复述。

skiplist是一种跳跃表,它实现了有序集合中的快速查找,在大多数情况下它的速度都可以和平衡树差不多。但它的实现比较简单,可以作为平衡树的替代品。它的结构比较特殊。下面分别是跳跃表skiplist和它内部的节点skiplistNode的结构体:

[cpp] view plain copy
  1. /* 
  2.  * 跳跃表 
  3.  */  
  4. typedef struct zskiplist {  
  5.     // 头节点,尾节点  
  6.     struct zskiplistNode *header, *tail;  
  7.     // 节点数量  
  8.     unsigned long length;  
  9.     // 目前表内节点的最大层数  
  10.     int level;  
  11. } zskiplist;  
  12. /* ZSETs use a specialized version of Skiplists */  
  13. /* 
  14.  * 跳跃表节点 
  15.  */  
  16. typedef struct zskiplistNode {  
  17.     // member 对象  
  18.     robj *obj;  
  19.     // 分值  
  20.     double score;  
  21.     // 后退指针  
  22.     struct zskiplistNode *backward;  
  23.     // 层  
  24.     struct zskiplistLevel {  
  25.         // 前进指针  
  26.         struct zskiplistNode *forward;  
  27.         // 这个层跨越的节点数量  
  28.         unsigned int span;  
  29.     } level[];  
  30. } zskiplistNode;  
head和tail分别指向头节点和尾节点,然后每个skiplistNode里面的结构又是分层的(即level数组)

用图表示,大概是下面这个样子:


每一列都代表一个节点,保存了member和score,按score从小到大排序。每个节点有不同的层数,这个层数是在生成节点的时候随机生成的数值。每一层都是一个指向后面某个节点的指针。这种结构使得跳跃表可以跨越很多节点来快速访问。

前面说到了,有序集合ZSET是有跳跃表和hashtable共同形成的

[cpp] view plain copy
  1. typedef struct zset {  
  2.     // 字典  
  3.     dict *dict;  
  4.     // 跳跃表  
  5.     zskiplist *zsl;  
  6. } zset;  
为什么要用这种结构呢。试想如果单一用hashtable,那可以快速查找、添加和删除元素,但没法保持集合的有序性。如果单一用skiplist,有序性可以得到保障,但查找的速度太慢O(logN)。

结尾

简单介绍了Redis的五种对象类型和它们的底层实现。事实上,Redis的高效性和灵活性正是得益于对于同一个对象类型采取不同的底层结构,并在必要的时候对二者进行转换;以及各种底层结构对内存的合理利用。




0
0
查看评论

深入理解Redis:底层数据结构

简介 redis[1]是一个key-value存储系统。和Memcached类似,它支持存储的value类型相对更多,包括string(字符串)、list(链表)、set(集合)、zset(sorted set --有序集合)和hash(哈希类型)。通常我们并不需要理解其底层数据结构,但如果能了解...
  • hanhuili
  • hanhuili
  • 2013-12-31 10:55
  • 11028

Spring技术内幕——深入解析Spring架构与设计原理(一)IOC实现原理

文章来源: javaeye.comhttp://www.javaeye.com/topic/493282?page=1 相关文章:   Spring源代码解析(一):IOC容器 Spring技术内幕——深入解析Spring架构与设计原理(一)IOC实现原理 spring源码分析-...
  • yangdelong
  • yangdelong
  • 2009-10-26 11:32
  • 9287

Redis底层数据结构总结

Redis用于存储的存储格式分为5种对象:String对象、List对象、HashTable对象、Set对象和SortedSet。 String字符串,用于保存字符串对象,同时可以作为缓冲区(AOF缓存区) sdshdr{ int length; int free; cha...
  • litoupu
  • litoupu
  • 2015-08-12 10:05
  • 2062

深入了解Redis

本文将主要从Redis适用范围,与Memcached, Java容器对比,核心功能(Pipelining,Pub/Sub,LRU,Transactions, Persistence, Replication),分布式架构设计,Cluster,内部实现及数据结构来深入了解Redis,适用于已经了解并有...
  • ErixHao
  • ErixHao
  • 2016-08-16 22:56
  • 4382

深入理解Redis

持久化策略一 RDB快照 持久化策略二 AOF日志 和其他数据库比较 1.持久化策略一 RDB快照 Redis支持将当前数据的快照存成一个数据文件的持久化机制。 不足: 每次快照持久化都是将内存数据完整写入到磁盘一次,如果数据量大的话,而且写操作比较多,必然会引起大...
  • qqqwed123456
  • qqqwed123456
  • 2018-01-05 21:22
  • 37

深入理解 MySQL 底层实现

本文来自作者 默默 在 GitChat 上分享 「深入理解 MySQL 底层实现」,「阅读原文」查看交流实录。「文末高能」编辑 | 哈比MySQL 的常用引擎1. InnoDBInnoDB 的存储文件有两个,后缀名分别是 .frm 和 .idb,其中 .frm...
  • GitChat
  • GitChat
  • 2017-12-13 00:00
  • 1274

Redis (六 深入了解redis内核)

### 内存淘汰 redis内存不足时,有两种处理方式: (1)启用虚拟内存:将vm-enabled设置为yes (2)启用内存淘汰:将maxmemory设置为一个大于0的整数 redis的使用内存大于最大分配可用内存时,开始进行淘汰,memcache只有LRU算法,re...
  • njys1
  • njys1
  • 2016-11-05 11:09
  • 733

【深入理解数据结构】二叉树实践

数据结构的本质: 数据结构就是研究数据的逻辑结构和物理结构以及它们之间相互关系,并对这种结构定义相应的运算。 什么是逻辑结构? 数据之间的逻辑关系,我们通常分成四种: 1)集合 , 结构中的数据元素除了同属于一种类型外,别无其它关系。 2)线性结构 ,...
  • To_dreams
  • To_dreams
  • 2012-07-03 11:50
  • 853

分布式缓存技术redis学习系列(六)—— 深入理解Spring Redis的使用

关于spring redis框架的使用,网上的例子很多很多。但是在自己最近一段时间的使用中,发现这些教程都是入门教程,包括很多的使用方法,与spring redis丰富的api大相径庭,真是浪费了这么优秀的一个框架。 Spring-data-redis为spring-data模块中对redis的支持...
  • pfnie
  • pfnie
  • 2016-08-27 10:52
  • 2298

一步步带你深入理解数据结构系列--散列表

以下所说的有任何疑问或者有任何错误,欢迎评论,但不可能时刻都上着CSDN,所以可以用微博@或私信我。微博:halooooJeffrey 概述 散列方法以最基本的向量作为底层支撑结构,通过适当的散列函数在词条的关键码与向量单元的秩之间建立起映射关系。 只要散列表、散列函数以及冲突排解策略...
  • u011465808
  • u011465808
  • 2014-08-17 19:21
  • 650
    个人资料
    • 访问:132081次
    • 积分:4666
    • 等级:
    • 排名:第7455名
    • 原创:333篇
    • 转载:78篇
    • 译文:0篇
    • 评论:5条
    最新评论