Hyperloglog
-
什么是基数?
A{1,3,5,7,8,7} B{1,3,5,7,8}
基数(不重复的元素),可以接受误差
-
简介
-
Hyperloglog是做基数统计的算法
-
网页的UV(一个人访问一个网站多次,还是算作一个人)
-
传统的方式:set保存用户的Id,然后就可以同级set的元素数量作为判断标准,
-
如果保存大量的用户id,就会比较麻烦,目的是计数,而不是保存用户id
-
Hyperloglog优点:占用的内存是固定的,2^64不同的元素的技术,只需要12KB的内存,如果要从内存角度比较来说Hyperloglog首选!!!
-
0.81%的错误率,同级UV任务,我们可以忽略不计
-
127.0.0.1:6379> pfadd mykey a b c d e f g h i j #在mykey中放入数据 (integer) 1 127.0.0.1:6379> pfadd mykey1 i j k l m n (integer) 1 127.0.0.1:6379> pfcount mykey1 #打印mykey1中的数据个数 (integer) 6 127.0.0.1:6379> pfmerge mykey2 mykey mykey1 #合并分组两组元素!!! OK 127.0.0.1:6379> pfcount mykey2 (integer) 14 #如果容错允许,使用它就ok 如果不容错,就是用set
-