Redis Hyperloglog的原理及数学理论的通俗理解

tera_tian

已于 2022-01-24 17:17:48 修改

阅读量899

点赞数 3

分类专栏： redis 文章标签： redis

于 2022-01-24 17:15:21 首次发布

本文链接：https://blog.csdn.net/m0_37125602/article/details/122671311

版权

redis中有一种数据格式，hyperloglog，本文就此数据结构的作用、redis的实现及其背后的数学原理作一个整理。当然本文不包含任何数学公式，而是希望用直观的例子帮大家理解。
主要内容如下：
1.业务场景
2.使用效果
3.数学原理
4.redis的实现原理

1.业务场景

现在有这样一个业务场景，统计某个页面的uv。和pv不同，在统计uv的时候需要根据用户id进行去重，因此就很难用一个简单的累加计数器来累加pv。当用户量达到千万甚至更高级别的时候，去重所需要的额外存储空间将是巨大的。而hyperloglog数据结构正是用来解决这类问题的，它用仅仅12kb的字节，就能统计 $2^{64}$ 数量级别的去重数据统计。当然这种统计是一种估计量，当数量足够大的时候，误差在1%左右。因此如果我们要求的统计结果不需要特别精确，那么就可以使用这种数据结构节省大量存储空间。

2.使用效果

我们先看下使用效果，分别记录1000、10000、100000个不同的id，观察统计数据：
在这里插入图片描述

可以看到每次的统计结果都略有误差，但在可接受范围内。

3.数学原理

极大似然估计的直观理解

其使用的数学原理是统计学中的极大似然估计。接下去我将用多个场景逐步深入解析。
**场景1：**现在有2个不透明的口袋，其中都装有100个球，A口袋中是99个白球1个黑球，B口袋中是99个黑球1个白球。当我们随机挑选一个口袋，然后从中拿出一个球。如果拿出的球是白色的，那么我们可以说“大概率”我们取出的是A口袋。这种直觉的推测其实就包含了“极大似然估计”的思想。

场景2：我们只保留A口袋，其中99个白球，1个黑球。很容易我们就可以得出结论，从中取出任意一个球，是白球的概率为99%，是黑球的概率为1%。这是一种正向的推测：
我们知道了条件（99个白球，1个黑球），从而推测出结果（取出任意一个球，是白球的概率为99%）。
但这只是理论上的推测，如果实际取球100次，每次都放回，那么取出黑球的次数并不一定是1次，可能是0次，也可能超过1次。我们取球的次数越多，实际情况将越符合理论情况。

场景3：还是A口袋，只不过此时其中白球和黑球的数量我们并不知晓。于是我们开始从中拿球，每拿出一个球都记录下结果，并将其放回。如果我们取球100次，其中99次是白球，1次是黑球，我们可以说A口袋中可能是99个白球，但并不能非常肯定。当我们取球10000次的时候，其中9900次是白球，100次是黑球，此时我