帮助理解HyperLogLog算法

最新推荐文章于 2022-03-14 16:47:04 发布

ScroogeACarol

最新推荐文章于 2022-03-14 16:47:04 发布

阅读量303

点赞数

文章标签： redis hyperloglog

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ScroogeACarol/article/details/110027272

版权

帮助理解HyperLogLog算法

- - - - 作者：ScroogeACarol
        
        时间：内容于2020.11.24经检验生效
1、介绍HyperLogLog
- HyperLogLog的价值
2、HyperLogLog的原理
总结

作者：ScroogeACarol

时间：内容于2020.11.24经检验生效

在学习HyperLogLog算法的时候在网上翻阅了大量帖子，这些帖子在许多地方没能写通透，本人几经波折，才弄懂这个算法原理。为帮助后人理解HyperLogLog，我用自己的语言，尽可能写一篇易于理解的帖子。本文所写的HyperLogLog算法为Redis中使用的，实际该算法可以根据自己的需要进行调整，思路上大同小异。

1、介绍HyperLogLog

HyperLogLog的价值

首先由一个问题来引出：
假设我们需要统计一个网页一天被访问多少次，这很简单，每被访问一次，计数器加1就行了。但如果需要你统计一个网页一天有多少个用户访问，这要如何实现呢？注意，一个用户重复访问多次，仍然只算一次。
对于一般思路，是对每个访问的用户进行标识，当这个用户二次访问的时候，计数器不变就行了。
这是最精确的统计方法，但是我们需要开辟一个空间用以标识所有到访的用户。如果到访的用户量很大很大，这个空间也将很大很大。
假设我们统计的不是用户，而是别的什么东西，统计量达到了2^64数量级，那么相应的，我们或许要开辟100M的空间才能精确地统计。
而实际上，面对海量的数据，我们需要的往往并不是一个精确的值，而是一个估计值。对我们来说，今天统计出1000个

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
帮助理解HyperLogLog算法

帮助理解HyperLogLog算法作者：ScroogeACarol时间：内容于2020.11.24经检验生效1、介绍HyperLogLogHyperLogLog的价值2、HyperLogLog的原理2.1、伯努利试验2.2、用伯努利试验进行基数统计2.3、用分桶法进行基数统计2.4、融合！用HyperLogLog进行基数统计总结作者：ScroogeACarol时间：内容于2020.11.24经检验生效在学习HyperLogLog算法的时候在网上翻阅了大量帖子，这些帖子在许多地方没能写通透，本人几经波折
复制链接

扫一扫

ScroogeACarol CSDN认证博客专家 CSDN认证企业博客

码龄5年

6: 原创

20万+: 周排名

68万+: 总排名

7170: 访问

: 等级

134: 积分

4: 粉丝

3: 获赞

0: 评论

3: 收藏

私信

关注

热门文章

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。