Redis三种特殊数据类型:bitmaps位图、hyperloglog基数统计 和 geospatial 地理空间
一、介绍
Redis HyperLogLog 是用来做基数统计的,即计算在一批数据中,不重复元素有多少个!
应用场景:网站页面用户访问量、日活跃数等
- 优点:极少的内存来统计巨量的数据,12K就能统计 2^64 的数据
- 缺点:存在一定的误差,误差率为 0.81%;
二、操作命令
命令 | 功能 | 描述 |
pfadd | 添加 | 往HLL 结构中 添加一个或多个元素 |
pfcount | 去重统计 | 统计一个或多个 HLL 结构 |
pfmerge | 合并 | 将多个HLL 结构合并成一个 |
1、pfadd 向key中添加多个元素 (添加)
语法:pfadd key 元素1 元素2...
# 分别往myset、myset2添加元素
127.0.0.1:6379> pfadd myset 1 2 3 5 5
(integer) 1
127.0.0.1:6379> pfadd myset2 3 5 6 7
(integer) 1
2、pfcount 统计多个key中所有不重复元素的个数 (统计)
语法:pfcount key1 key2...
# 分别往myset、myset2添加元素
127.0.0.1:6379> pfadd myset 1 2 3 5 5
(integer) 1
127.0.0.1:6379> pfadd myset2 3 5 6 7
(integer) 1
# 统计myset中不重复元素个数
127.0.0.1:6379> pfcount myset
(integer) 4 # 只有4个,元素5重复只做一次有效计算
#统计myset、myset2不重复的个数
127.0.0.1:6379> pfcount myset myset2
(integer) 6 # 元素3、5都重复了
3、pfmerge 合并多个key到一个key中 (合并)
语法:pfmerge 目标新key 源目标key1 源目标key2....
# 分别往myset、myset2添加元素
127.0.0.1:6379> pfadd myset 1 2 3 5 5
(integer) 1
127.0.0.1:6379> pfadd myset2 3 5 6 7
(integer) 1
# 将myset、myset2的元素,合并到myset3中
127.0.0.1:6379> pfmerge myset3 myset myset2
OK
# 统计myset3中不重复元素个数(去重)
127.0.0.1:6379> pfcount myset3
(integer) 6
三、总结
- 在输入元素的数量或者体积非常大时,计算基数所需的空间总是固定的、且很小
- 每个HyperLogLog的key只需花费 12 KB 内存,可计算接近 2^64 个不同元素的基数。
- 只根据输入元素来计算基数,不储存元素本身(不能像集合那样,返回输入的各个元素)