1.视界
2.概述
在需要对数据进行去重计数的场景里,实现方式是将数据明细存储在集合的数据结构中。然而,随着数据随时间的不断累积,明细数据占用了大量的存储空间。使用 HyperLoglog 去重计数,在牺牲非常小准确性的情况下,可以极大的减少数据存储。
HyperLogLog 算法 也就是基数估计统计算法,预估一个集合中不同数据的个数,也就是我们常说的去重统计,在 redis
中也存在 hyperloglog
类型的结构,能够使用 12k
的内存,允许误差在 0.81%
的情况下统计 2^64
个数据,在这种大数据量情况下能够减少存储空间的消耗,但是前提是允许存在一定的误差
。
关于 HyperLogLog 算法原理可以参考这篇文章:https://www.jianshu.com/p/55defda6dcd2