Redis（06）HyperLogLog类型--附有示例

bilal-abdurehim

已于 2023-04-20 12:03:16 修改

阅读量474

点赞数 1

分类专栏： Redis 文章标签： redis 数据库缓存

于 2023-04-20 11:22:14 首次发布

本文链接：https://blog.csdn.net/bilal_0/article/details/130262255

版权

Redis 专栏收录该内容

20 篇文章 1 订阅

订阅专栏

文章目录

HyperLogLog

HyperLogLog

Redis HyperLogLog 是一种概率性数据结构，可以统计大量元素的基数（不重复元素数量），同时具有极小的存储空间和计算复杂度。

以下是一些常见的 Redis HyperLogLog 命令和其说明：

PFADD ：将一个或多个元素添加到指定的 HyperLogLog 中。
PFCOUNT ：返回指定 HyperLogLog 中不同元素的数量。如果多个 HyperLogLog 被指定，它们的数量会合并成一个。
PFMERGE ：将源 HyperLogLog 的元素添加到目标 HyperLogLog 中，实现多个 HyperLogLog 的合并。
PFDEBUG：命令用于在 Redis HyperLogLog 内部打开和关闭调试选项
PFSELFTEST：命令用于测试Redis HyperLogLog实现是否符合预期（自检）

需要注意的是，由于 HyperLogLog 只是使用哈希函数来统计基数，因此存在一定的错误率。这个错误率通常非常小，并且可以通过增加 HyperLogLog 的大小来进一步减小错误率。

常用场景

Redis HyperLogLog通常用于以下几个方面: （claude回答）

统计用户UV(Unique Visitor) 这个是HyperLogLog的最典型应用场景。我们可以使用用户ID作为元素来添加到HyperLogLog,然后PFCOUNT就可以得到近似的用户UV数量。这种方式只需要小小的12KB内存,就可以统计20亿级别的UV,这对许多网站来说极为可靠且高效。
统计网站访问量(PV) 我们可以使用访客的IP地址作为元素添加到HyperLogLog,就可以统计网站的访问量(PageView)。同样也只需要很小的内存,就可以达到很高的统计效果。
统计产品销售量在电商网站,我们可以使用产品ID或者订单ID作为元素添加到HyperLogLog,来统计产品的销售数量或订单数量,这也是一种很典型的使用场景。
网页标签统计我们可以使用用户浏览过的网页标签或关键词作为元素添加到HyperLogLog,来统计不同标签或关键词出现的次数,这对SEO优化和销售推广都很有帮助。
秒杀活动UV统计在秒杀活动开始时,我们可以使用用户ID添加到HyperLogLog,活动结束后PFCOUNT就可以得到秒杀活动的UV数量,这种场景下HyperLogLog的内存优势和统计效率就可以发挥很大作用。
日志访问分析对日志文件中的访问信息进行解析和过滤,提取出访问IP或用户ID等信息作为元素添加到HyperLogLog,可以很快速地得到日志文件中的UV或PV信息,这在大数据日志分析中很常用。除此以外,HyperLogLog还适用于各种需要统计相对准确基数的场景,特别是在海量数据下,它的内存优势可以达到其他算法很难达到的效果。所以总结来说,Redis HyperLogLog最典型和最有效的应用场景就是各种海量UV统计和元素基数统计。它可以在很小的空间完成很强大的统计功能,这也是HyperLogLog的最大优点。希望这能帮助你理解Redis HyperLogLog的常见使用场景,如果还有不明白的地方,请随时提问。

Redis HyperLogLog通常用于以下几个方面: （chatgpt回答）

Redis HyperLogLog 常用于需要统计大量数据的唯一元素个数的场景，它可以在使用很少的内存空间的情况下，给出一个接近准确的基数估计值。由于内存使用率低、计算速度快、精度高等特点，HyperLogLog 在很多领域都有广泛应用，如下列举了其中几个常见的应用场景：

统计网站的 UV（unique visitor），即独立访客数量。
统计广告或页面的点击量。
统计设备 ID 或 IP 地址的数量，即进行网络流量统计等。
统计评论或点赞数量。
统计用户签到或活跃度。
统计订单数量或交易数量等。

使用 HyperLogLog 可以代替传统的精确统计方法，减少存储和计算开销，提高计数的速度和效率。但是需要注意的是 HyperLogLog 的基数估计存在一定的误差，因此要根据具体场景选择合适的 HyperLogLog 精度，并时常进行精度与可靠性的检测和修正。

pfadd

Redis中的HyperLogLog是一种基数算法,可以用来计算不重复元素的概略个数。它只需要很小的存储空间,就可以计算出数据集中的不重复元素数量,理论上允许的错误率是0.81%。pfadd指令是HyperLogLog的基本操作,用于向HyperLogLog添加元素。

语法:

PFADD key element [element ...]

参数说明:

key: HyperLogLog的键名,用于指定要操作的HyperLogLog结构。
element: 要添加的元素,可以是一个或多个。

返回值:

返回1,表示至少有1个新元素被添加成功。

返回0,表示所有元素都已经存在,没有添加任何新元素。例子:

127.0.0.1:6379> PFADD mykey "a" "b" "c"
(integer) 1

127.0.0.1:6379> PFADD mykey "a" "c"
(integer) 0

127.0.0.1:6379> PFCOUNT mykey
(integer) 3

上面例子中:

第一次调用PFADD添加a, b, c三个元素,返回1,表示至少一个元素是新添加的。
第二次调用PFADD再添加a和c两个元素,返回0,表示所有元素都已经存在,没有新添加任何元素。
调用PFCOUNT查询mykey对应的HyperLogLog中元素的数量,返回3。

所以总结来说,pfadd指令就是向HyperLogLog中添加元素,并返回是否有至少一个新元素被添加的信息。

PFCOUNT

PFCOUNT命令用于返回给定HyperLogLog的基数估算值。

语法:

PFCOUNT key [key ...]

参数说明:

key: 一个或多个HyperLogLog的键名,用于指定要查询的HyperLogLog结构。

返回值:

返回给定HyperLogLog的值的基数估算值。

例子:

127.0.0.1:6379> PFADD mykey "a" "b" "c"
(integer) 1

127.0.0.1:6379> PFCOUNT mykey
(integer) 3

127.0.0.1:6379> PFADD mykey2 "q" "d" "e"
(integer) 1

127.0.0.1:6379> PFCOUNT mykey mykey2
(integer) 6

上面例子中:

向mykey HyperLogLog添加元素a, b, c, 并查询得到基数为3。
向mykey2 HyperLogLog添加元素q, d, e, 并查询得到基数为3。
同时查询mykey和mykey2, 得到总基数为6。

所以PFCOUNT命令就是用于查询给定HyperLogLog的基数(不重复元素的数量)估算值。由于HyperLogLog算法会有一定的误差,所以返回的是估算值。它可以查询单个或多个HyperLogLog,并返回所有HyperLogLog基数之和。

PFMERGE

PFMERGE命令用于将多个HyperLogLog合并为一个HyperLogLog。

语法:

PFMERGE destkey sourcekey [sourcekey ...]

参数说明:

destkey: 目标HyperLogLog键名,合并后的HyperLogLog将保存在该键名上。
sourcekey: 一个或多个源HyperLogLog键名,用于指定要合并的HyperLogLog结构。

返回值:

返回OK,表示PFMERGE命令执行成功。

例子:

127.0.0.1:6379> PFADD mykey "a" "b" "c"
(integer) 1

127.0.0.1:6379> PFCOUNT mykey
(integer) 3

127.0.0.1:6379> PFADD mykey2 "q" "d" "e"
(integer) 1

127.0.0.1:6379> PFCOUNT mykey2
(integer) 3

127.0.0.1:6379> PFMERGE mykey3 mykey mykey2
OK

127.0.0.1:6379> PFCOUNT mykey3
(integer) 6

上面例子中:

mykey HyperLogLog元素基数为3。
mykey2 HyperLogLog元素基数为3。
将mykey和mykey2合并到mykey3上。
mykey3 HyperLogLog元素基数为6,等于mykey和mykey2的基数之和。

所以PFMERGE命令就是用于将多个HyperLogLog合并为一个HyperLogLog,合并后的HyperLogLog包含所有源HyperLogLog的元素,其基数也等于源HyperLogLog基数之和。它常用于在分布式环境下,将不同节点的HyperLogLog数据合并到一起,得到全局的数据信息。

PFDEBUG

PFDEBUG命令用于获取有关HyperLogLog键的调试信息,用于开发和调试 HyperLogLog 算法。

语法:

PFDEBUG key

参数说明:

key: HyperLogLog键名。

返回值:

PFDEBUG返回的信息包括:

Encoding: 表示所使用的HyperLogLog编码方式,可以是 dense 或 sparse。
Cardinality: 键的基数估算值。
Bits: HyperLogLog算法中用于定义桶的位数。
Bit array: 0和1组成的字节数组,记录哪些桶被设置。
Run length encoding: 对bit array进行的运行长度编码,可以更高效地存储bit array。

例子:

127.0.0.1:6379> PFADD mykey "a" "b" "c"
(integer) 1

127.0.0.1:6379> PFDEBUG mykey
1) "Encoding"
2) "dense"
3) "Cardinality"
4) (integer) 3
5) "Bits"
6) (integer) 12
7) "Bit array"
8) "\\x0\\x00\\x00\\x00\\x18"
9)  "Run length encoding"
10) "\\x00\\x04\\x18"

上面例子中,我们在mykey HyperLogLog中添加3个元素,然后使用PFDEBUG查询该HyperLogLog的调试信息:

Encoding: dense,表示使用dense编码
Cardinality: 3,基数估算值为3
Bits: 12,使用12位来定义桶
Bit array: \x0\x00\x00\x00\x18,bit数组信息
Run length encoding: \x00\x04\x18,bit数组的运行长度编码

所以PFDEBUG命令主要用于HyperLogLog开发和调试,它返回有关HyperLogLog内部信息的调试数据,可以让开发者理解HyperLogLog算法的具体运行过程,以便进行优化或修复bug。对于普通的Redis使用者来说,很少会直接使用这个命令。

PFDEBUG命令返回的信息确实比较难理解。我来给你一个更详细的解释:

PFDEBUG命令返回的信息主要有以下几点:

Encoding: 表示HyperLogLog使用的编码方式,可以是dense或sparse。dense表示使用BitMap表示bit数组,sparse表示使用运行长度编码RLU(Run Length Encoding)来表示bit数组。一般元素数量较小时使用dense,较大时使用sparse。
Cardinality: 该HyperLogLog的基数估算值,即不重复元素的数量。
Bits: 该HyperLogLog使用几位来定义桶,比如12位可以定义2^12=4096个桶。
Bit array: 真实的bit数组信息,用16进制表示,每两个字符表示1字节,总字节数等于Bits/8。例如12位需要12/8=1.5字节,四舍五入2字节,\x00\x18。
Run length encoding: 如果使用sparse编码,bit数组会使用RLU编码来高效存储。RLU编码是一串数字,每隔一个数字代表一个字节,数字的值代表该字节的值重复的次数。例如\x00\x04\x18解码后就是000011111111,0重复了4次,1重复了8次。举个例子,帮助理解:

127.0.0.1:6379> PFADD mykey "a" "b" "c" "d" "e"
(integer) 1

127.0.0.1:6379> PFDEBUG mykey
1) "Encoding"
2) "dense"  # 使用dense编码
3) "Cardinality"
4) (integer) 5   # 基数为5
5) "Bits"
6) (integer) 5   # 桶数2^5=32个
7) "Bit array"
8) "\\x1f"     # 二进制11111,每位1代表对应桶被设置
9)  "Run length encoding"
10) ""        # 不使用RLU编码

在这个例子中:

HyperLogLog使用dense编码,5位定义32个桶。

添加5个元素后,5个桶都被设置,bit数组是11111,即\x1f。

不使用RLU编码,所以Run length encoding信息为空。

基数为5,与实际添加元素数量一致。

所以通过PFDEBUG的返回信息,我们就可以明确理解该HyperLogLog内部的具体构造,这对于理解HyperLogLog算法非常有帮助。

PFSELFTEST

PFSELFTEST命令用于测试Redis HyperLogLog实现是否符合预期。

语法:

PFSELFTEST

参数说明:

无参数

返回值:

返回OK,表示HyperLogLog实现通过了自检。

返回ERR,表示HyperLogLog实现未通过自检。

例子:

127.0.0.1:6379> PFSELFTEST
OK

PFSELFTEST命令会执行HyperLogLog实现的一系列自检,主要检测以下几点:

dense编码和sparse编码的Cardinality计算结果是否正确。它会创建两个HyperLogLog,一个使用dense编码,一个使用sparse编码,分别添加相同的元素,并比较两者的Cardinality是否一致。
不同参数下,Cardinality计算结果是否正确。它会创建不同Bits和Hash的值的HyperLogLog,添加相同元素,并验证Cardinality计算结果是否一致。
PFMERGE后的Cardinality是否正确。它会创建多个HyperLogLog,PFMERGE到一起,并验证合并后的Cardinality是否等于各个HyperLogLog的Cardinality之和。
HyperLogLog算法是否可以正确估算接近2^64个元素的基数。
空HyperLogLog的Cardinality是否为0。
单个桶中最大十进制索引数字是否正确。等等。

所以PFSELFTEST主要用于测试和验证Redis HyperLogLog实现的正确性。当PFSELFTEST返回OK时,表示HyperLogLog实现符合预期,返回ERR则表示实现存在问题,需要修复。一般在开发环境下,经常使用PFSELFTEST来测试代码更改对HyperLogLog的影响。在生产环境下,也应该定期执行PFSELFTEST,确保HyperLogLog功能的正确性。

bilal-abdurehim

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
Redis（06）HyperLogLog类型--附有示例

HyperLogLog典型应用:1. 网站UV统计:用用户ID添加到HyperLogLog,PFCOUNT返回UV。2. 网站PV统计:用访客IP添加到HyperLogLog,PFCOUNT返回PV。 3. 电商产品销量:用产品ID或订单ID添加到HyperLogLog,PFCOUNT返回销量。4. 标签或关键词出现次数:用标签或关键词添加到HyperLogLog,PFCOUNT返回出现次数。 5. 秒杀活动UV统计:用用户ID添加到HyperLogLog,活动结束PFCOUNT返回UV。
复制链接

扫一扫