从应用到底层：36张图带你进入Redis世界（上，龙湖集团java面试

最新推荐文章于 2024-10-17 23:20:35 发布

Git小发明

最新推荐文章于 2024-10-17 23:20:35 发布

阅读量709

点赞数 18

分类专栏： 2024年程序员学习文章标签： redis java 面试

本文链接：https://blog.csdn.net/m0_56169789/article/details/137253318

版权

2024年程序员学习专栏收录该内容

286 篇文章 0 订阅

订阅专栏

lpush + lpop = stack 先进后出的栈

lpush + rpop = queue 先进先出的队列

lpush + ltrim = capped collection 有限集合

lpush + brpop = message queue 消息队列

一般可以用来做简单的消息队列，并且当数据量小的时候可能用到独有的压缩列表来提升性能。当然专业点还是要 RabbitMQ、ActiveMQ等

1.3、Hash

============

散列非常适用于将一些相关的数据存储在一起，比如用户的购物车。该类型在日常用途还是挺多的。

这里需要明确一点：Redis中只有一个K，一个V。其中 K 绝对是字符串对象，而 V 可以是String、List、Hash、Set、ZSet任意一种。

hash的底层主要是采用字典dict的结构，整体呈现层层封装。从小到大如下：

1.3.1、dictEntry

===================

真正的数据节点，包括key、value 和 next 节点。

从应用到底层：36张图带你进入Redis世界（上）

1.3.2、dictht

================

1、数据 dictEntry 类型的数组，每个数组的item可能都指向一个链表。

2、数组长度 size。

3、sizemask 等于 size - 1。

4、当前 dictEntry 数组中包含总共多少节点。

从应用到底层：36张图带你进入Redis世界（上）

1.3.3、dict

==============

1、dictType 类型，包括一些自定义函数，这些函数使得key和value能够存储

2、rehashidx 其实是一个标志量，如果为-1说明当前没有扩容，如果不为 -1 则记录扩容位置。

3、dictht数组，两个Hash表。

4、iterators 记录了当前字典正在进行中的迭代器

从应用到底层：36张图带你进入Redis世界（上）

组合后结构就是如下：

从应用到底层：36张图带你进入Redis世界（上）

1.3.4、渐进式扩容

===========

为什么 dictht ht[2]是两个呢？目的是在扩容的同时不影响前端的CURD，慢慢的把数据从ht[0]转移到ht[1]中，同时rehashindex来记录转移的情况，当全部转移完成，将ht[1]改成ht[0]使用。

rehashidx = -1说明当前没有扩容，rehashidx != -1则表示扩容到数组中的第几个了。

扩容之后的数组大小为大于used*2的2的n次方的最小值，跟 HashMap 类似。然后挨个遍历数组同时调整rehashidx的值，对每个dictEntry[i] 再挨个遍历链表将数据 Hash 后重新映射到 dictht[1]里面。并且 dictht[0].use 跟 dictht[1].use 是动态变化的。

从应用到底层：36张图带你进入Redis世界（上）

整个过程的重点在于rehashidx，其为第一个数组正在移动的下标位置，如果当前内存不够，或者操作系统繁忙，扩容的过程可以随时停止。

停止之后如果对该对象进行操作，那是什么样子的呢？

1、如果是新增，则直接新增后第二个数组，因为如果新增到第一个数组，以后还是要移过来，没必要浪费时间

2、如果是删除，更新，查询，则先查找第一个数组，如果没找到，则再查询第二个数组。

从应用到底层：36张图带你进入Redis世界（上）

1.4、Set

===========

如果你明白Java中HashSet是HashMap的简化版那么这个Set应该也理解了。都是一样的套路而已。这里你可以认为是没有Value的Dict。看源码 t.set.c 就可以了解本质了。

int setTypeAdd(robj *subject, robj *value) {

long long llval;

if (subject->encoding == REDIS_ENCODING_HT) {

// 看到底层调用的还是dictAdd，只不过第三个参数= NULL

if (dictAdd(subject->ptr,value,NULL) == DICT_OK) {

incrRefCount(value);

return 1;

}

…

1.5、ZSet

============

范围查找的天敌就是有序集合，看底层 redis.h 后就会发现 Zset用的就是可以跟二叉树媲美的跳跃表来实现有序。跳表就是多层链表的结合体，跳表分为许多层(level)，每一层都可以看作是数据的索引，这些索引的意义就是加快跳表查找数据速度。

每一层的数据都是有序的，上一层数据是下一层数据的子集，并且第一层(level 1)包含了全部的数据；层次越高，跳跃性越大，包含的数据越少。并且随便插入一个数据该数据是否会是跳表索引完全随机的跟玩骰子一样。

跳表包含一个表头，它查找数据时，是从上往下，从左往右进行查找。现在找出值为37的节点为例，来对比说明跳表和普遍的链表。

没有跳表查询比如我查询数据37，如果没有上面的索引时候路线如下图：
有跳表查询有跳表查询37的时候路线如下图：应用场景：

积分排行榜、时间排序新闻、延时队列。

1.6、Redis Geo

=================

以前写过Redis Geo核心原理解析，想看的直接跳转即可。他的核心思想就是将地球近似为球体来看待，然后 GEO利用 GeoHash 将二维的经纬度转换成字符串，来实现位置的划分跟指定距离的查询。

从应用到底层：36张图带你进入Redis世界（上）

1.7、HyperLogLog

===================

HyperLogLog ：是一种概率数据结构，它使用概率算法来统计集合的近似基数。而它算法的最本源则是伯努利过程 + 分桶 + 调和平均数。具体实现可看 HyperLogLog 讲解。

功能：误差允许范围内做基数统计 (基数就是指一个集合中不同值的个数) 的时候非常有用，每个HyperLogLog的键可以计算接近2^64不同元素的基数，而大小只需要12KB。错误率大概在0.81%。所以如果用作 UV 统计很合适。

HyperLogLog底层一共分了 2^14 个桶，也就是 16384 个桶。每个(registers)桶中是一个 6 bit 的数组，这里有个骚操作就是一般人可能直接用一个字节当桶浪费2个bit空间，但是Redis底层只用6个然后通过前后拼接实现对内存用到了极致，最终就是 16384*6/8/1024 = 12KB。

1.8、bitmap

==============

BitMap 原本的含义是用一个比特位来映射某个元素的状态。由于一个比特位只能表示 0 和 1 两种状态，所以 BitMap 能映射的状态有限，但是使用比特位的优势是能大量的节省内存空间。

在 Redis 中BitMap 底层是基于字符串类型实现的，可以把 Bitmaps 想象成一个以比特位为单位的数组，数组的每个单元只能存储0和1，数组的下标在 Bitmaps 中叫做偏移量，BitMap 的 offset 值上限 2^32 - 1。

从应用到底层：36张图带你进入Redis世界（上）

用户签到

key = 年份：用户id offset = （今天是一年中的第几天） % （今年的天数）

统计活跃用户

使用日期作为 key，然后用户 id 为 offset 设置不同offset为0 1 即可。

PS : Redis 它的通讯协议是基于TCP的应用层协议 RESP(REdis Serialization Protocol)。

1.9、Bloom Filter

====================

使用布隆过滤器得到的判断结果：不存在的一定不存在，存在的不一定存在。

布隆过滤器原理：

当一个元素被加入集合时，通过K个散列函数将这个元素映射成一个位数组中的K个点(有效降低冲突概率)，把它们置为1。检索时，我们只要看看这些点是不是都是1就知道集合中有没有它了：如果这些点有任何一个为0，则被检元素一定不在；如果都是1，则被检元素很可能在。这就是布隆过滤器的基本思想。

想玩的话可以用Google的guava包玩耍一番。

从应用到底层：36张图带你进入Redis世界（上）

1.10 发布订阅

=============

redis提供了发布、订阅模式的消息机制，其中消息订阅者与发布者不直接通信，发布者向指定的频道（channel）发布消息，订阅该频道的每个客户端都可以接收到消息。不过比专业的MQ(RabbitMQ RocketMQ ActiveMQ Kafka)相比不值一提，这个功能就算球了。

从应用到底层：36张图带你进入Redis世界（上）

2、持久化

=========

因为Redis数据在内存，断电既丢，因此持久化到磁盘是必须得有的，Redis提供了RDB跟AOF两种模式。

2.1、RDB

===========

RDB 持久化机制，是对 Redis 中的数据执行周期性的持久化。更适合做冷备。优点：

1、压缩后的二进制文，适用于备份、全量复制，用于灾难恢复加载RDB恢复数据远快于AOF方式，适合大规模的数据恢复。

2、如果业务对数据完整性和一致性要求不高，RDB是很好的选择。数据恢复比AOF快。

缺点：

1、RDB是周期间隔性的快照文件，数据的完整性和一致性不高，因为RDB可能在最后一次备份时宕机了。

2、备份时占用内存，因为Redis 在备份时会独立fork一个子进程，将数据写入到一个临时文件（此时内存中的数据是原来的两倍哦），最后再将临时文件替换之前的备份文件。所以要考虑到大概两倍的数据膨胀性。

注意手动触发及COW：

1、SAVE 直接调用 rdbSave ，阻塞 Redis 主进程，导致无法提供服务。2、BGSAVE 则 fork 出一个子进程，子进程负责调用 rdbSave ，在保存完成后向主进程发送信号告知完成。在BGSAVE 执行期间仍可以继续处理客户端的请求。

3、Copy On Write 机制，备份的是开始那个时刻内存中的数据，只复制被修改内存页数据，不是全部内存数据。

4、Copy On Write 时如果父子进程大量写操作会导致分页错误。

从应用到底层：36张图带你进入Redis世界（上）

2.2、AOF

===========

AOF 机制对每条写入命令作为日志，以 append-only 的模式写入一个日志文件中，因为这个模式是只追加的方式，所以没有任何磁盘寻址的开销，所以很快，有点像 Mysql 中的binlog。AOF更适合做热备。

优点：

AOF是一秒一次去通过一个后台的线程fsync操作，数据丢失不用怕。

缺点：

1、对于相同数量的数据集而言，AOF文件通常要大于RDB文件。RDB 在恢复大数据集时的速度比 AOF 的恢复速度要快。

2、根据同步策略的不同，AOF在运行效率上往往会慢于RDB。总之，每秒同步策略的效率是比较高的。

AOF整个流程分两步：第一步是命令的实时写入，不同级别可能有1秒数据损失。命令先追加到aof_buf然后再同步到AO磁盘，如果实时写入磁盘会带来非常高的磁盘IO，影响整体性能。

第二步是对aof文件的重写，目的是为了减少AOF文件的大小，可以自动触发或者手动触发(BGREWRITEAOF)，是Fork出子进程操作，期间Redis服务仍可用。

从应用到底层：36张图带你进入Redis世界（上）

1、在重写期间，由于主进程依然在响应命令，为了保证最终备份的完整性；它依然会写入旧的AOF中，如果重写失败，能够保证数据不丢失。

2、为了把重写期间响应的写入信息也写入到新的文件中，因此也会为子进程保留一个buf，防止新写的file丢失数据。

3、重写是直接把当前内存的数据生成对应命令，并不需要读取老的AOF文件进行分析、命令合并。

4、无论是 RDB 还是 AOF 都是先写入一个临时文件，然后通过rename完成文件的替换工作。

关于Fork的建议：

1、降低fork的频率，比如可以手动来触发RDB生成快照、与AOF重写；

2、控制Redis最大使用内存，防止fork耗时过长；

3、配置牛逼点，合理配置Linux的内存分配策略，避免因为物理内存不足导致fork失败。

4、Redis在执行BGSAVE和BGREWRITEAOF命令时，哈希表的负载因子>=5，而未执行这两个命令时>=1。目的是尽量减少写操作，避免不必要的内存写入操作。

5、哈希表的扩展因子：哈希表已保存节点数量 / 哈希表大小。因子决定了是否扩展哈希表。

2.3、恢复

==========

启动时会先检查AOF(数据更完整)文件是否存在，如果不存在就尝试加载RDB。

从应用到底层：36张图带你进入Redis世界（上）

2.4、建议

==========

既然单独用RDB会丢失很多数据。单独用AOF，数据恢复没RDB来的快，所以出现问题了第一时间用RDB恢复，然后AOF做数据补全才说王道。

3、Redis为什么那么快

=================

3.1、基于内存实现：

================

数据都存储在内存里，相比磁盘IO操作快百倍，操作速率很快。

3.2、高效的数据结构：

================

Redis底层多种数据结构支持不同的数据类型，比如HyperLogLog它连2个字节都不想浪费。

3.3、丰富而合理的编码：

=================

Redis底层提供了丰富而合理的编码，五种数据类型根据长度及元素的个数适配不同的编码格式。

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数Java工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年Java开发全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上Java开发知识点，真正体系化！

由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新

如果你觉得这些内容对你有帮助，可以添加V获取：vip1024b （备注Java）

总结

互联网大厂比较喜欢的人才特点：对技术有热情，强硬的技术基础实力；主动，善于团队协作，善于总结思考。无论是哪家公司，都很重视高并发高可用技术，重视基础，所以千万别小看任何知识。面试是一个双向选择的过程，不要抱着畏惧的心态去面试，不利于自己的发挥。同时看中的应该不止薪资，还要看你是不是真的喜欢这家公司，是不是能真的得到锻炼。其实我写了这么多，只是我自己的总结，并不一定适用于所有人，相信经过一些面试，大家都会有这些感触。

**另外本人还整理收藏了2021年多家公司面试知识点以及各种技术点整理 **

下面有部分截图希望能对大家有所帮助。

在这里插入图片描述
料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上Java开发知识点，真正体系化！**