HyperLogLog 使用及其算法原理详细讲解

2401_84413631

于 2024-04-18 04:02:42 发布

阅读量811

点赞数 29

分类专栏：程序员文章标签：算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_84413631/article/details/137898369

版权

本文详细介绍了HyperLogLog算法的估值优化，包括增加测试轮数和修正因子，以及与LogLog算法的区别。接着，解释了HyperLogLog的实现原理，包括转为比特串、分桶和桶分配三个步骤，并提供了伯努利试验和HyperLogLog的代码实现示例。最后，探讨了HyperLogLog在基数统计中的应用。

摘要由CSDN通过智能技术生成

3.2 估值优化

关于上述估值偏差较大的问题，可以采用如下方式结合来缩小误差：

增加测试的轮数，取平均值。假设三次伯努利试验为1轮测试，我们取出这一轮试验中最大的的kmax作为本轮测试的数据，同时我们将测试的轮数定位100轮，这样我们在100轮实验中，将会得到100个kmax，此时平均数就是(k_max_1 + … + k_max_m)/m，这里m为试验的轮数，此处为100.
增加修正因子，修正因子是一个不固定的值，会根据实际情况来进行值的调整。

上述这种增加试验轮数，去kmax的平均值的方法，是LogLog算法的实现。因此LogLog它的估算公式如下：

HyperLogLog与LogLog的区别在于HyperLogLog使用的是调和平均数，并非平均数。调和平均数指的是倒数的平均数（调和平均数）。调和平均数相比平均数能降低最大值对平均值的影响，这个就好比我和马爸爸两个人一起算平均工资，如果用平均值这么一下来我也是年薪数十亿，这样肯定是不合理的。

使用平均数和调和平均数计算方式如下：

假设我的工资20000，马云1000000000

使用平均数的计算方式：(20000 + 1000000000) / 2 = 500010000

调和平均数的计算方式：2/(1/20000 + 1/1000000000) ≈ 40000

很明显，平均工资月薪40000更加符合实际平均值，5个亿不现实。

调和平均数的基本计算公式如下：

3.3 HyperLogLog的实现

根据3.1和3.2大致可以知道HyperLogLog的实现原理了，它的主要精髓在于通过记录下低位连续零位的最大长度K（也就是上面我们说的kmax），来估算随机数的数量n。

任何值在计算机中我们都可以将其转换为比特串，也就是0和1组成的bit数组，我们从这个bit串的低位开始计算，直到出现第一个1为止，这就好比上面的伯努利试验抛硬币，一直抛硬币直到出现第一个正面为止（只是这里是数字0和1，伯努利试验中使用的硬币的正与反，并没有区别）。而HyperLogLog估算的随机数的数量，比如我们统计的UV，就好比伯努利试验中试验的次数。

综上所述，HyperLogLog的实现主要分为三步：

第一步：转为比特串

通过hash函数，将输入的数据装换为比特串，比特串中的0和1可以类比为硬币的正与反，这是实现估值统计的第一步

第二步：分桶

分桶就是上面3.2估值优化中的分多轮，这样做的的好处可以使估值更加准确。在计算机中，分桶通过一个单位是bit，长度为L的大数组S，将数组S平均分为m组，m的值就是多少轮，每组所占有的比特个数是相同的，设为 P。得出如下关系：

L = S.length
L = m * p
数组S的内存 = L / 8 / 1024 (KB)

在HyperLogLog中，我们都知道它需要12KB的内存来做基数统计，原因就是HyperLogLog中m=

最低0.47元/天解锁文章

关注

29
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
HyperLogLog 使用及其算法原理详细讲解

由于篇幅限制，小编在此截出几张知识讲解的图解《互联网大厂面试真题解析、进阶开发核心学习笔记、全套讲解视频、实战项目源码讲义》点击传送门即可获取！图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且会持续更新！**如果你觉得这些内容对你有帮助，可以扫码获取！！（备注Java获取）由于篇幅限制，小编在此截出几张知识讲解的图解[外链图片转存中…(img-duEyrRFK-1713384152731)][外链图片转存中…(img-ylLw0z95-1713384152731)]
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。