redis-HyperLogLog 基础概念

最新推荐文章于 2022-04-05 16:43:06 发布

wangxiaoangg

最新推荐文章于 2022-04-05 16:43:06 发布

阅读量277

点赞数 1

分类专栏： redis 文章标签： redis hyperLogLog

本文链接：https://blog.csdn.net/qq_16399991/article/details/92799045

版权

redis 专栏收录该内容

37 篇文章 3 订阅

订阅专栏

一.基本概念

HyperLogLog并不是一种新的数据结构（实际类型为字符串类型），而是一种基数算法，通过HyperLogLog可以利用极小的内存空间完成独立总数的统计，数据集可以是IP、 Email、 ID等。 HyperLogLog提供了3个命令：pfadd、 pfcount、 pfmerge。

例如2016-03-06的访问用户是uuid-1、 uuid-2、uuid-3、 uuid-4， 2016-03-05的访问用户是uuid-4、 uuid-5、 uuid-6、 uuid-7，如
图3所示：

二.命令

1.添加 pfadd

pfadd用于向HyperLogLog添加元素，如果添加成功返回1；

#语法：
pfadd key element [element …]

#例：
127.0.0.1:6480> PFADD user1 1 2 3
(integer) 1

2.计算独立用户数 pfcount

pfcount用于计算一个或多个HyperLogLog的独立总数

#语法：
pfcount key [key …]

#例子：
127.0.0.1:6480> PFADD user2 234 4 5

127.0.0.1:6480> PFCOUNT user1
(integer) 3

127.0.0.1:6480> PFCOUNT user1 user2
(integer) 6

3.合并pfmerge

pfmerge可以求出多个HyperLogLog的并集并赋值给destkey

 #语法：
pfmerge destkey sourcekey [sourcekey ...]

#例子：
127.0.0.1:6480> PFMERGE user3 user1 user2
OK
127.0.0.1:6480> PFCOUNT user3
(integer) 6
127.0.0.1:6480>

三适用场景

HyperLogLog内存占用量小得惊人，但是用如此小空间来估算如此巨大的数据，必然不是100%的正确，其中一定存在误差率。 Redis官方给出的数字是0.81%的失误率。

适用场景：

只为了计算独立总数，不需要获取单条数据。
可以容忍一定误差率，毕竟HyperLogLog在内存的占用量上有很大的优势。

HyperLogLog的算法是由Philippe Flajolet（https://en.wikipedia.org/wiki/Philippe_Flajolet）在The analysis of a
near-optimal cardinality estimation algorithm这篇论文中提出，读者如果有兴趣可以自行阅读。