首先我们需要知道基数是什么?
即去重复后的真实个数。比如:有两个用户,一个用户访问页面三次,另一个访问了两次,请问基数是多少?答案是2,即有多个个不同用户访问过而并非访问次数。
ok那么这个知道了,HyperLogLog就是来统计这个的,只需花费很小内存12kb就可以统计2^64个不同的基数,但只是来计算基数,而不会返回各元素。
pfadd name e1 e2 ...: 创建name并插入元素
pfcount name : 统计name的基数是多少
pfmerge e1 e2 e3...: 将e2及后面的元素全插入e1并统计基数
虽然HyperLogLog非常方便,但其也有误差,约0.7几左右。