1、说名词
1.1、什么是UV
Unique Vistor,独立访客,一般理解为客户端IP,需要去重考虑
1.2、什么是PV
Page View,页面浏览量,不用去重
1.3、什么是DAU
Daily Active User 日常活跃用户量 ,登录或者使用了某个产品的用户数(去重重复登录的用户)
常用于反映网站、互联网应用或者网络游戏的运营情况
1.4、什么是MAU
Monthly Active User 月活跃用户量
2、看需求
① 统计某个网站的UV、统计某个文章的UV
② 用户搜索网站关键词的数量
③ 统计用户每天搜索不同词条个数
3、是什么
3.1、去重复统计功能的基数估计算法-就是HyperLogLog
Redis HyperLogLog
Redis在2.8.9版本添加了 HyperLogLog结构
Redis HyperLogLog是用来做基数统计的算法, HyperLogLog的优点是,在输入元素的数量或者体积非常非常大时,计算基数所需的空间总是固定的、并且是很小的。
在 Redis里面,每个 HyperLogLog键只需要花费12KB内存,就可以计算接近2^64个不同元素的基数。这和计算基数时,元素越多耗费内存就越多的集合形成鲜明对比。
但是,因为 HyperLogLog只会根据输入元素来计算基数,而不会储存输入元素本身,所以 HyperLogLog不能像集合那样,返回输入的各个元素。
3.2、基数
是一种数据集,去重复后的真实个数
案例Case
(全集) I={2,4,6,8,77,39,4,8,10}
去掉重复内容
基数={2,4,6,8,77,39,10}=7
3.3、基数统计
3.4、一句话
4、HyPerLogLog如何做?如何演化出来的?
4.2、去重复统计你先会想到哪些方式?
① HashSet
② bitmap
如果数据显较大亿级统计,使用 bitmaps同样会有这个问题。
bitmap是通过用位bit数组来表示各元素是否出现,每个元素对应一位,所需的总内存为N个bit
基数计数则将每一个元素对应到bit数组中的其中一位,比如bit数组010010101(按照从零开始下标,有的就是1、4、6、8)
新进入的元素只需要将已经有的bit数组和新加入的元素进行按位或计算就行。这个方式能大大减少内存占用且位操作迅速。
But,假设一个样本案例就是一亿个基数位值数据,一个样本就是一亿
如果要统计1亿个数据的基数位值,大约需要内存100000000/8/1024/1024约等于12M,内存减少占用的效果显著。
这样得到统计一个对象样本的基数值需要12M。
如果统计10000个对象样本(1w个亿级)就需要117.1875G将近120G,可见使用 bitmaps还是不适用大数据量下(亿级)的基数计数场景,
但是 bitmaps方法是精确计算的。
③ 结论:样本元素越多内存消耗急剧增大,难以管控+各种慢,对于亿级统计不太合适,大数据害死人。
④ 办法 :概率算法
通过牺牲准确率来换取空间,对于不要求绝对准确率的场景下可以使用,因为概率算法不直接存储数据本身,
通过一定的概率统计方法预估基数值,同时保证误差在一定范围内,由于又不储存数据故此可以大大节约内存。
HyperLogLog就是一种概率算法的实现。
4.3、原理说明
① 只是进行不重复的基数统计,不是集合也不保存数据,只记录数量而不是具体内容。
② 有误差
非精确统计
牺牲准确率来换取空间,误差率仅仅只是0.81%左右
③ 这个误差如何而来的?论文地址出处
Redis new data structure: the HyperLogLog - <antirez>
④ 经典面试题
为什么redis集群的最大槽数是16384个?
Redis集群并没有使用一致性hash而是引入了哈希槽的概念。 Redis集群有16384哈希槽,每个key通过CRC16校验后对16384取模来决定放置哪个槽,集群的每个节点负责一部分hash槽。但为什么哈希槽的数量是16384(2^14)个呢?
CRC16算法产生的hash值有16bit,该算法可以产生2^16=65536个值。
换句话说值是分布在0~65535之间。那作者在做mod运算的时候,为什么不mod65536,而选择mod16384?
https://github.com/redis/redis/issues/2576
说明1
正常的心跳数据包带有节点的完整配置,可以用幂等方式用旧的节点替换旧节点,以便更新旧的配置。
这意味着它们包含原始节点的插槽配置,该节点使用2k的空间和16k的插槽,但是会使用8k的空间(使用65k的插槽)。
同时,由于其他设计折衷, Redis集群不太可能扩展到1000个以上的主节点。
因此16k处于正确的范围内,以确保每个主机具有足够的插槽,最多可容纳1000个矩阵,但数量足够少,可以轻松地将插槽配置作为原始
位图传播。请注意,在小型群集中,位图将难以压缩,因为当N较小时,位图将设置的slot/N位占设置位的很大百分比。
说明2
(1)如果槽位为65536,发送心跳信息的消息头达8k,发送心跳包过于庞大。
在消息头中最占空间的是myslots[CLUSTER_SLOTS/8]。当槽位为65536时,这块的大小是:65536/8/1024=8kb
因为每秒钟,redis节点需要发送一定数量的ping消息作为心跳包,如果槽位为65536,这个ping消息的消息头太大了,浪费带宽。
(2)redis的集群主节点数量基本不可能超过1000个。
集群节点越多,心跳包的消息体内携带的数据越多。如果节点过1000个,也会导致网络拥堵。因此redis作者不建议redis cluster节点数量超
过1000个。那么,对于节点数在1000以内的 redis cluster集群,16384个槽位够用了。没有必要拓展到65536个。
(3)槽位越小,节点少的情况下,压缩比高,容易传输
Redis主节点的配置信息中它所负责的哈希槽是通过一张 bitmap的形式来保存的,在传输过程中会对 bitmap进行压缩,但是如果 bitmap的填
充率 slots/N很高的话(N表示节点数), bitmap的压缩率就很低。如果节点数很少,而哈希槽数量很多的话, bitmap的压缩率就很低。
5、基本命令
命令 | 作用 |
pfadd key element ... | 将所有元素添加到key中 |
pfcount key | 统计key的估算值(不精确) |
pgmerge new_key key1 key2 ... | 合并key至新key |
127.0.0.1:6379> pfadd hll01 1 3 4 5 7 9 //hll01添加 1 3 4 5 7 9
(integer) 1
127.0.0.1:6379> pfadd hll02 2 4 4 4 6 8 9 //hll02添加 2 4 4 4 6 8 9
(integer) 1
127.0.0.1:6379> pfcount hll02 //计算hll02去重后的个数 5 (2,4,6,8,9)
(integer) 5
127.0.0.1:6379> pfmerge distResult hll01 hll02 //合并 hll01 ,hll02
OK
127.0.0.1:6379> pfcount disResult
(integer) 0
6、案例实战:天猫网站首页亿级uv的Redis统计方案
方案一:
redis --hash=<keyDay,<ip,1>>
按照ipv4的结构来说明,每个ipv4的地址最多是15个字节(ip="192.168.111.1",最多 xxx.xxx.xxx.xxx)
某一天的1.5亿*15个字节=2G,一个月60G,redis死定了。
方案二:
hyperloglog:
6、案例实战:天猫网站首页亿级uv的Redis统计方案
方案一:
redis --hash=<keyDay,<ip,1>>
按照ipv4的结构来说明,每个ipv4的地址最多是15个字节(ip="192.168.111.1",最多 xxx.xxx.xxx.xxx)
某一天的1.5亿*15个字节=2G,一个月60G,redis死定了。
方案二:
hyperloglog:
/**
* 获得ip去重复后的首页访问量,总数统计
*/
@RequestMapping(value = "/uv",method = RequestMethod.GET)
public long uv()
{
//pfcount
return redisTemplate.opsForHyperLogLog().size("hll");
}
@Service
@Slf4j
public class HyperLogLogService
{
@Resource
private RedisTemplate redisTemplate;
/**
* 模拟有用户来点击首页,每个用户就是不同的ip,不重复记录,重复不记录
*/
@PostConstruct
public void init()
{
log.info("------模拟后台有用户点击,每个用户ip不同");
//自己启动线程模拟,实际上产不是线程
new Thread(() -> {
String ip = null;
for (int i = 1; i <=200; i++) {
Random random = new Random();
ip = random.nextInt(255)+"."+random.nextInt(255)+"."+random.nextInt(255)+"."+random.nextInt(255);
Long hll = redisTemplate.opsForHyperLogLog().add("hll", ip);
log.info("ip={},该ip访问过的次数={}",ip,hll);
//暂停3秒钟线程
try { TimeUnit.SECONDS.sleep(3); } catch (InterruptedException e) { e.printStackTrace(); }
}
},"t1").start();
}
}