基数估计算法(一)：Flajolet-Martin算法

最新推荐文章于 2024-04-23 17:36:06 发布

wbin233

最新推荐文章于 2024-04-23 17:36:06 发布

阅读量7.9k

点赞数 8

分类专栏：基数估计文章标签：算法基数估计 FM-sketch 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wbin233/article/details/78730977

版权

本文介绍了Flajolet-Martin算法，一种用于大数据基数估计的概率算法。通过定义hash函数和BITMAP数组，利用概率统计原理估算基数。基础版算法通过一个hash函数和BITMAP计算R值，而标准版引入多组hash方法以提高精度。TIPs部分讨论了BITMAP长度和数量的选择，以及算法在分布式计算中的应用。

摘要由CSDN通过智能技术生成

写作不易，转载请注明出处:
http://blog.csdn.net/wbin233/article/details/78730977，谢谢。

简介
基础版
标准版
TIPs
参考资料

简介

说起基数估计算法的始祖，或许就是由Flajolet和Martin大佬发表的论文《 Probabilistic counting algorithms for data base applications 》开始的吧。他们提出在大数据中基于概率来估计基数的算法，江湖人称 FM-sketch算法。

基础版

首先定义一个hash函数：
function hash(x): -> $[0, 1, 2 ,..., 2^L-1]$ ，该函数能将元素均匀地映射到该区间内。

再定义bit函数：
bit(y, k) 表示 y的二进制表示第k个bit数值（0或1）.
即 $y=\sum_{k\ge0}bit(y,k)2^k.$

定义tail(y)表示y的二进制表示中末尾出现第一个1的位置(从0开始计数)，即连续0的个数：
$tail(y) = \begin{cases} \min bit(y, k) \neq0, & \mbox{if }y \gt0 \\ L, & \mbox{if }y=0 \end{cases}$

定义BITMAP[0…L-1]数组，BITMAP[i] 表示在可重复集合M中有一个数经过hash后呈现 $...10^i$ ，即该hash值的二进制表示中末尾有连续i个0.
具体BITMAP的计算如下：

for i :=

最低0.47元/天解锁文章

关注

8
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
基数估计算法(一)：Flajolet-Martin算法

写作不易，转载请注明出处: http://blog.csdn.net/wbin233/article/details/78730977简介说起基数估计算法的始祖，或许就是由Flajolet和Martin大佬发表的论文《 Probabilistic counting algorithms for data base applications 》开始的吧。他们提出在大数据中基于概率来估计基数的算法，江湖人称FM算法。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。