前言
之前在项目里用 keys 命令找出 Redis 中所有满足特定正则字符串规则的 key。但是 keys 没有 offset 和 limit 参数,也就是分页。而且 keys 的算法是遍历算法,复杂度是 O(n) ,效率太低。后来为了优化这个功能,改用了 Redis 的 scan 命令。
scan 命令简介
scan 相比 keys 具备以下特点。
- 复杂度虽然也是 0(n),但它是通过游标分步进行的,不会阻塞线程。
- 提供 limit 参数,可以控制每次返回结果的最大条数,limit 只是个 hint,
返回的结果可多可少。 - 同 keys 一样,它也提供模式匹配功能。
- 服务器不需要为游标保存状态 ,游标的唯一状态就是 scan 返回给客户端的游标整数。
- 返回的结果可能会有重复,需要客户端去重,这点非常重要。
- 遍历的过程中如果有数据修改,改动后的数据能不能遍历到是不确定的。
- 单次返回的结果是空的并不意昧着遍历结束,而要看返回的游标值是否为零。
常用命令
- SCAN cursor [MATCH pattern] [COUNT count]
- cursor - 游标。
- pattern - 匹配的模式。
- count - 指定从数据集里返回多少元素,默认值为 10 。
redis 127.0.0.1:6379> scan 0 # 使用 0 作为游标,开始新的迭代
1) "17" # 第一次迭代时返回的游标
2) 1) "key:12"
2) "key:8"
3) "key:4"
4) "key:14"
5) "key:16"
6) "key:17"
7) "key:15"
8) "key:10"
9) "key:3"
10) "key:7"
11) "key:1"
redis 127.0.0.1:6379> scan 17 # 使用的是第一次迭代时返回的游标 17 开始新的迭代
1) "0"
2) 1) "key:5"
2) "key:18"
3) "key:0"
4) "key:2"
5) "key:19"
6) "key:13"
7) "key:6"
8) "key:9"
9) "key:11"
Scan 命令原理解析
Redis 中所有的 key 都存储在一个很大的字典中,这个字典的结构和 Java 中的 HashMap 一样,是数组加链表的结构。数组的长度总是 2 的 n 次方,每次扩容,数组的容量 * 2。上面例子中 scan 指令返回的游标就是数组的索引,我们将这个位置索引称为槽(slot)。
Redis 每次每次扩容时,都会进行 rehash 操作,就是将所有的元素全部挂到新的数组下面。rehash 就是将元素的 hash 值对数组长度进行取模运算,因为长度变了,所以每个元素挂接的槽位可能也发生了变化。又因为数组的长度是 2 的 n 次方,所以取模运算等价于位与操作。
接下来我们看看 rehash 前后元素槽位的变化。
如图所示,假设此时字典的长度由 8 位扩容到 16 位,那么 3 号槽位将会被 rehash 到 3 号槽位和 3 + 8(8 是扩容时新增的容量) 即 11 号槽位。也就是说该槽位的链表中有大约一半的元素还在 3 号槽位,其他的元素放到了 11 号槽位。而 3 号槽位的二进制是 011,11 号槽位的二进制又是 1011,1011 正好是 011(3) + 1000(8) = 1011(11),即 011(3)的二进制增加了一个高位 1。
抽象一点就是假设当前 Redis 的容量是 n,某个槽位的二进制位是 xxx,那么该槽位中的元素将在扩容时时被 rehash 到 0xxx 和 1xxx(xxx + n)中。这里可能需要一点二进制运算的基础才比较好理解。
扩容与缩容
仔细观察上图,我们可以发现 Redis 是采用高位进位加法的遍历顺序,rehash 后的槽位在遍历顺序上是相邻的。
这里插播一下「高位进位加法」:
从图中我们可以看出高位进位加法从左边加,进位往右边移动,同普通加法正好相反。之所以使用这样特殊的方式进行遍历,是考虑到字典的扩容与缩容时避免槽位的遍历重复和遗漏。
回到扩容和缩容的话题,假设当前要遍历 110 这个位置(橙色),那么扩容后,当前槽位上所有的元素对应的新槽位是 0110 和 1110 (深绿色),也就是在槽位的二进制数增加 1 个高位 0 或 1。这时我们可以直接从 0110 这个槽位开始往后继续遍历, 0110 槽位之前的所有槽位都是已经遍历过的,这样就可以避免扩容后对已经遍历过的槽位进行重复遍历。
再考虑缩容,假设当前即将遍历 110 这个位置(橙色),那么缩容后,当前槽位所有的元素对应的新槽位是 10(深绿色),也就是去掉槽位二进制最高位。这时我们可以直接从 10 这个槽位继续往后遍历,10 槽位之前的所有槽位都是已经遍历过的,这样就可以避免缩容的重复遍历。不过缩容时,会对图中 010 这个槽位的元素进行重复遍历,因为缩容后 10 槽位的元素是 010 和 110 上的链表的元素的总和。
scan 中的渐进式 rehash
我们知道 redis 采用的是渐进式 rehash,对于 rehash 中的字典,scan 命令会同时扫描新旧槽位,然后就结果融合返回给客户端。