一.基本概念
HyperLogLog并不是一种新的数据结构(实际类型为字符串类型) , 而是一种基数算法, 通过HyperLogLog可以利用极小的内存空间完成独立总数的统计, 数据集可以是IP、 Email、 ID等。 HyperLogLog提供了3个命令:pfadd、 pfcount、 pfmerge。
例如2016-03-06的访问用户是uuid-1、 uuid-2、uuid-3、 uuid-4, 2016-03-05的访问用户是uuid-4、 uuid-5、 uuid-6、 uuid-7, 如
图3所示:
二.命令
1.添加 pfadd
pfadd用于向HyperLogLog添加元素, 如果添加成功返回1;
#语法:
pfadd key element [element …]
#例:
127.0.0.1:6480> PFADD user1 1 2 3
(integer) 1
2.计算独立用户数 pfcount
pfcount用于计算一个或多个HyperLogLog的独立总数
#语法:
pfcount key [key …]
#例子:
127.0.0.1:6480> PFADD user2 234 4 5
127.0.0.1:6480> PFCOUNT user1
(integer) 3
127.0.0.1:6480> PFCOUNT user1 user2
(integer) 6
3.合并pfmerge
pfmerge可以求出多个HyperLogLog的并集并赋值给destkey
#语法:
pfmerge destkey sourcekey [sourcekey ...]
#例子:
127.0.0.1:6480> PFMERGE user3 user1 user2
OK
127.0.0.1:6480> PFCOUNT user3
(integer) 6
127.0.0.1:6480>
三 适用场景
HyperLogLog内存占用量小得惊人, 但是用如此小空间来估算如此巨大的数据, 必然不是100%的正确, 其中一定存在误差率。 Redis官方给出的数字是0.81%的失误率。
适用场景:
- 只为了计算独立总数, 不需要获取单条数据。
- 可以容忍一定误差率, 毕竟HyperLogLog在内存的占用量上有很大的优势。
HyperLogLog的算法是由Philippe Flajolet(https://en.wikipedia.org/wiki/Philippe_Flajolet) 在The analysis of a
near-optimal cardinality estimation algorithm这篇论文中提出, 读者如果有兴趣可以自行阅读。