应用场景
HyperLogLog 提供不精确的去重计数方案,虽然不精确但是也不是非常不精确,标准误差是 0.81%,常见的应用场景是统计UV。
UV:Unique Visitor,独立访客,是指通过互联网访问、浏览这个网页的自然人,访问网站的一台电脑客户端作为一个访客。
00:00-24:00内相同的客户端只被计算一次【以Cookie为依据】。一天内同个访客多次访问仅算一个UV。
使用方法
常用指令,可用版本>=2.8.9
:
pfadd
:计数。pfcount
:获取计数。pfmerge
:将多个pf计数值累加形成新的pf值。
> pfadd uv:20201210 user1 # 计数
(integer) 1
> pfcount uv:20201210 # 获取计数
(integer) 1
> pfadd uv:20201210 user2
(integer) 1
> pfcount uv:20201210
(integer) 2
> pfadd uv:20201210 user3 user4 user5
(integer) 1
> pfcount uv:20201210
(integer) 5
数据结构
HyperLogLog需要占据一定12k的存储空间,所以它不适合统计单个用户相关的数据。如果你的用户上亿,这个空间成本是惊人的。
Redis对HyperLogLog的存储进行了优化,在计数比较小时,它的存储空间采用稀疏矩阵存储,空间占用很小,仅在计数慢慢变大,稀疏矩阵占用空间渐渐超过了阈值时才会一次性转变成稠密矩阵,才会占用12k的空间。