1.看需求
- 统计某个网站的UV、统计某个文章的UV
- 什么是UV : Unique Visitor, 独立访客,一般理解为服务器IP 且需要去重考虑
- 用户搜索网站关键词的数量
- 统计用户每天搜索不同词条个数
2.是什么
去重复统计功能的基数估计算法-就是HyperLogLog
基数
-
是一种数据集,去重后的真实个数
-
案例case
基数统计
用于统计一个集合中不重复的元素个数,就是对集合去重复后剩余元素的计算
一句话
去重脱水后的真实数据
常用命令
序号 | 命令及描述 |
---|---|
1 | PFADD key element [element …] 添加指定元素到HyperLogLog中 |
2 | PFCOUNT key [key …] 返回给定HyperLogLog的基数估算值 |
3 | PFMERGE destkey sourcekey [sourcekey …] 将多个HyperLogLog合并成一个HyperLogLog |
127.0.0.1:6379>PFADD hll01 1 3 5 7 9
(integer) 1
127.0.0.1:6379>PFADD hll02 1 2 4 4 4 5 9 10
(integer) 1
127.0.0.1:6379>PFCOUNT hll01
(integer) 5
127.0.0.1:6379>PFCOUNT hll02
(integer) 6
127.0.0.1:6379>PFMERGE hllresult hll01 hll02
OK
127.0.0.1:6379>PFCOUNT hllresult
(integer) 8