redis-HyperLogLog 基础概念

一.基本概念

HyperLogLog并不是一种新的数据结构(实际类型为字符串类型) , 而是一种基数算法, 通过HyperLogLog可以利用极小的内存空间完成独立总数的统计, 数据集可以是IP、 Email、 ID等。 HyperLogLog提供了3个命令:pfadd、 pfcount、 pfmerge。

例如2016-03-06的访问用户是uuid-1、 uuid-2、uuid-3、 uuid-4, 2016-03-05的访问用户是uuid-4、 uuid-5、 uuid-6、 uuid-7, 如
图3所示:

二.命令

1.添加 pfadd

pfadd用于向HyperLogLog添加元素, 如果添加成功返回1;

#语法:
pfadd key element [element …]

#例:
127.0.0.1:6480> PFADD user1 1 2 3
(integer) 1

 

2.计算独立用户数 pfcount

pfcount用于计算一个或多个HyperLogLog的独立总数

#语法:
pfcount key [key …]

#例子:
127.0.0.1:6480> PFADD user2 234 4 5

127.0.0.1:6480> PFCOUNT user1
(integer) 3

127.0.0.1:6480> PFCOUNT user1 user2
(integer) 6

3.合并pfmerge

pfmerge可以求出多个HyperLogLog的并集并赋值给destkey

 #语法:
pfmerge destkey sourcekey [sourcekey ...]

#例子:
127.0.0.1:6480> PFMERGE user3 user1 user2
OK
127.0.0.1:6480> PFCOUNT user3
(integer) 6
127.0.0.1:6480> 


三 适用场景

HyperLogLog内存占用量小得惊人, 但是用如此小空间来估算如此巨大的数据, 必然不是100%的正确, 其中一定存在误差率。 Redis官方给出的数字是0.81%的失误率。

 

适用场景

  • 只为了计算独立总数, 不需要获取单条数据。
  • 可以容忍一定误差率, 毕竟HyperLogLog在内存的占用量上有很大的优势。

HyperLogLog的算法是由Philippe Flajolet(https://en.wikipedia.org/wiki/Philippe_Flajolet) 在The analysis of a
near-optimal cardinality estimation algorithm这篇论文中提出, 读者如果有兴趣可以自行阅读。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值