Redis HyperLogLog问题

最新推荐文章于 2023-04-10 21:32:35 发布

sinat_27016095

最新推荐文章于 2023-04-10 21:32:35 发布

阅读量275

点赞数 1

分类专栏： Redis学习文章标签：算法 linux redis hyperloglog 大数据

本文链接：https://blog.csdn.net/sinat_27016095/article/details/115875359

版权

Redis的HyperLogLog数据结构用于基数估算，占用12K内存，提供0.81%标准误差的近似值。算法通过最长连续0计算，减少误差。相关命令包括PFADD、PFCOUNT和PFMERGE。适用于计算DAU、WAU等，降低存储需求。

摘要由CSDN通过智能技术生成

不管存储的内容是什么，在 Redis 中每个HyperLogLog键占用的内容都是 12K，理论存储近似接近 2^64 个值。
这是一个基于基数估计的算法，只能比较准确的估算出基数，可以使用少量固定的内存去存储并识别集合中的唯一元素。但是这个估算的基数并不一定准确，是一个带有 0.81% 标准错误（standard error）的近似值。但是，也正是因为只有 12K 的存储空间，所以，它并不实际存储数据的内容。
在这里插入图片描述

HyperLogLog本质上来源于生活中一个小的发现，假设你抛了很多次硬币，你告诉在这次抛硬币的过程中最多只有两次扔出连续的反面，让我猜你总共抛了多少次硬币，我敢打赌你抛硬币的总次数不会太多，相反，如果你和我说最多出现了100次连续的反面，那么我敢肯定扔硬盘的总次数非常的多，甚至我还可以给出一个估计，这个估计要怎么给呢？其实是一个很简单的概率问题，假设1代表抛出正面，0代表反面。
以抛硬币序列"1110100110"为例，其中最长的反面序列是"00"，我们顺手把后面那个1也给带上，也就是"001"，因为它包括了序列中最长的一串0，所以在序列中肯定只出现过一次，而它在任意序列出现出现且仅出现一次的概率显然是上图所示的三个二分之一相乘，也就是八分之一，所以我可以给出一个估计值，你大概总共抛了8次硬币。
很显然，上面这种做法虽然能够估计抛硬币的总数，但是显然误差是比