统计UV的实现方式
- Set
- bitmap
- Redis杀器HypeLogLog
1. Set实现
为了统计页面UV,及不重复的所有用户,我们可以建立一个Set的结构,存储所有访问页面的用户ID,根据Set的特性,我们可以保证每个ID只出现一次,从而得出UV,但这样会存在内存问题,假设每个ID为一个Integer,4字节,那么存储10亿个用户需要4G的内存空间,如果多统计几个页面,这得多少空间,太浪费了。
2. bitmap实现
用bitmap的好处是一个字节可以存储8个数,如果存储10亿个ID,1000000000/8/1024/1024 = 119.2M,相对于Set的实现,节省了40倍的空间,可能对一般小公司,足以,然而,对于海量数据怎么办。
3.1 HypeLogLog介绍
Redis 在 2.8.9 版本添加了 HyperLogLog 结构。Redis HyperLogLog是用来做基数统计的算法,**HyperLogLog的优点是,在输入元素的数量或者体积非常非常大时,计算基数所需的空间总是固定 的、并且是很小的。**在 Redis 里面,每个 HyperLogLog 键只需要花费 12 KB 内存,就可以计算接近 2^64 个不同元素的基数。这和计算基数时,元素越多耗费内存就越多的集合形成鲜明对比。但是,因为 HyperLogLog 只会根据输入元素来计