基数估计算法(二)：Linear Counting算法

最新推荐文章于 2025-01-13 11:31:34 发布

wbin233

最新推荐文章于 2025-01-13 11:31:34 发布

阅读量3.4k

点赞数 5

分类专栏：基数估计文章标签：算法基数估计 LC估计算法大数据

本文链接：https://blog.csdn.net/wbin233/article/details/78752597

版权

本文介绍了Linear Counting算法，一种基于概率的基数估计算法，由KYU-YOUNG WHANG等人在1990年提出。算法通过均匀分布的hash函数和bit数组统计元素数量，适用于大数据基数估计。文中详细阐述了算法的基本思想、公式证明、期望与方差计算，并讨论了bit数组长度选择和满桶控制策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

写作不易，转载请注明出处:
http://blog.csdn.net/wbin233/article/details/78752597 ，谢谢。

简介
基本思想及实现
公式证明
U_n和V_n的期望和方差
偏差-Biasfrachat nn的计算
标准误差-StdErrorfrachat nn的计算
bit数组的长度m的选取
满桶控制
合并
参考资料

简介

Linear Counting是KYU-YOUNG WHANG，BRAD T. VANDER-ZANDEN和HOWARD M. TAYLOR大佬们1990年发表的论文《A linear-time probabilistic counting algorithm for database applications》中提出的基于概率的基数估计算法。

基本思想及实现

Linear Counting的实现方式非常简单。
首先定义一个hash函数：
function hash(x): -> [0,1,2,…,m-1]，假设该hash函数的hash结果服从均匀分布。

接着定义一个长度为m的bit数组，开始每一位上都初始化为0.

然后对可重复集合里的每个元素进行hash得到k，如果bitmap[k]为0则置1。

最后统计bitmap数组里为0的位数u。

设集合基数为n，则有：
$\hat{n} =-m \ln \frac{u}{m}$ ，且其为n的最大似然估计。

简单的伪代码如下：
BLC伪代码

举个例子说明下吧，如下：

LC示例
集合中共有11个元素，hash函数映射到[0,7]中（m=8）且结果服从均匀分布。如图hash结果后共有2个bit为0，即u=2。代入上述公式可得估计结果为11.1(实际值为10)。
【该例子只为了说明算法的过程，实际中都是大数据中估计。】

公式证明

先说明下述中使用到的变量。

变量	含义
n	基数
q	总数
m	bit数组的长度（hash区间）
t	n/m
$U_n$	hash后bit数组为0的位数
$V_n$	$U_n / m$
p	$E(V_n)$

由于hash函数映射后的hash结果服从均匀分布，因此任意一数选中bitmap数组的某一个bit概率为 $\frac{1}{m}$ 。
设 $A_j$ 为事件“经过n个不同元素哈希后，第j个桶值为0”，则：
$P(A_j)=(1-\frac{1}{m})^n$ ,
$P(A_j \cap A_k)=(1-\frac{2}{m})^n,\quad j\neq k.$

又每个bit是相互独立的，即 $A_j$ 服从均匀分布。
则 $U_n$ 的数学期望为：
$E(U_n)=\sum_{j=1}^mP(A_j)=m(1-\frac{1}{m})^n=m(((1+\frac{1}{-m})^{-m})^{-\frac{n}{m}})\cong me^\frac{-n}{m}=me^{-t},\quad 当 n,m\to \infty$

【数学上证明： $\lim_{x\to \infty}(1+\frac{1}{x})^x=e$ 】

所以： $E(U_n)=me^\frac{-n}{m}$

即： $n=-m\ln{\frac{E(U_n)}{m}}$

显然，bitmap里每个bit的值服从相同的0-1分布，因此 $U_n$ 服从二项分布。
由概率论与数理统计知识可知，当n很大时，可以用正态分布逼近二项分布，因此可以认为当n和m趋于无穷大时 $U_n$ 渐进服从正态分布。
由于我们观察到的空桶数 $U_n$ 是从正态分布中随机抽取的一个样本，因此它就是μ的最大似然估计（正态分布的期望的最大似然估计是样本均值）。

又由如下定理：

设f(x)是可逆函数且 $\hat x$ 是x的最大似然估计，则f( $\hat x$ )是f(x)的最大似然估计。
且 $-m\ln{\frac{x}{m}}$ 是可逆函数，则 $\hat n=-m\ln{\frac{U_n}{m}}$ 是 $n=-m\ln{\frac{E(U_n)}{m}}$ 的最大似然估计。