蓄水池算法

得克特

于 2021-10-23 11:45:36 发布

阅读量2.5k

点赞数 1

分类专栏：数学之美文章标签：算法蓄水池

本文链接：https://blog.csdn.net/weixin_40548136/article/details/119033236

版权

数学之美专栏收录该内容

21 篇文章 3 订阅

订阅专栏

本文详细介绍了蓄水池算法及其在大数据量下的分布式实现。蓄水池算法允许在数据流中仅遍历一次的情况下，以恒定概率随机选择不重复的样本。分布式蓄水池算法通过将数据集分成多个部分，在每部分独立应用蓄水池算法，最终合并结果。文章通过推导证明了算法的正确性和效率，并提供了实现细节。

摘要由CSDN通过智能技术生成

文章目录

1.蓄水池算法

给定一个数据流，数据流长度N很大，且N直到处理完所有数据之前都不可知，请问如何在只遍历一遍数据（O(N)）的情况下，能够随机选取出m个不重复的数据。

我们需要找到一种随机的方式使的每个样本被取出的概率为 $\frac{C^{m-1}_{N-1}}{C^{m}_{N}}=\frac{m}{N}$

采用的方式是前m个样本全部取出，对于大于m的样本i，以 $\frac{m}{i}$ 的概率选择该元素，并从现有的m个样本随机一个位置替换。

推导

考虑 $i\leq m$ 和 $\gt m$ 两种情况：

计算 $i < = m$ 的的某个样本x最终被取出的概率
- 当 $i = m + 1$ ，i样本被取出的概率 $\frac{m}{m+1}$ ，替换样本x的概率为 $\frac{m}{m+1}*\frac{1}{m}=\frac{1}{m+1}$ ，则对于m+1个样本不替换x的概率为 $1-\frac{1}{m+1}=\frac{m}{m+1}$
- 当 $i = m + 2$ ，i样本被取出的概率 $\frac{m}{m+2}$ ，替换样本x的概率为 $\frac{m}{m+2}*\frac{1}{m}=\frac{1}{m+2}$ ，则对于m+2个样本不替换x的概率为 $1-\frac{1}{m+2}=\frac{m+1}{m+2}$
$\cdots$
- 当 $i = N$ ，i样本被取出的概率 $\frac{m}{N}$ ，替换样本x的概率为 $\frac{m}{N}*\frac{1}{m}=\frac{1}{N}$ ，则对于N个样本不替换x的概率为 $1-\frac{1}{N}=\frac{N-1}{N}$
则 $i < = m$ 的的某个样本x最终被取出的概率 $\frac{m}{m+1}*\frac{m+1}{m+2}...\frac{N-1}{N}=\frac{m}{N}$
计算 $i > m$ 的的某个样本x最终被取出的概率
- 初始样本x（假设第n个样本）被取出的概率为 $\frac{m}{n}$
- 当 $i = n + 1$ ，样本x被替换的概率 $\frac{m}{n+1}*\frac{1}{m}=\frac{1}{n+1}$ ，样本x不被替换的概率 $1-\frac{1}{n+1}=\frac{n}{n+1}$
…
- 当 $i = N$ ，样本x被替换的概率 $\frac{m}{N}*\frac{1}{m}=\frac{1}{N}$ ，样本x不被替换的概率 $1-\frac{1}{N}=\frac{N-1}{N}$
则 $i > m$ 的的某个样本x最终被取出的概率 $\frac{m}{n}*\frac{n}{n+1}...\frac{N-1}{N}=\frac{m}{N}$

2.分布式蓄水池算法

考虑很大的数据量，采用分布式的蓄水池算法利用K台机器从N个样本随机m个数据：

1.将大数据集分为K个数据流，记作 $N_1,N_2,\dots,N_K$ ，每台机器对应一个数据流并抽样m个数据。
2.取[1,N]的m个随机数 $d_1,d_2,\dots,d_m$ ，对于每个随机数，判断其所在的数据流 $N_k$ ，在数据流 $N_k$ 中等概率选择一个样本，最终从N个数据集选出m个数据。

推导

在分支流一次抽取中，其中每个样本被选择的概率：
$p(n_k)=\cfrac{m}{N_k}\times \cfrac{1}{m}=\cfrac{1}{N_k}$

每个样本被选择的概率：
$P(n_k)=m\times\cfrac{N_k}{N_K}\times p(n_k)=m\times\cfrac{N_k}{N_K}\times\cfrac{1}{N_k}=\cfrac{m}{N_K}$

m表示随机抽取m个随机数，乘 $\cfrac{N_k}{N_K}$ 表示m个随机数在 $N_k$ 数据流的个数，最后乘 $p(n_k)$ 表示分支流样本 $n_k$ 被抽中的概率。

3.参考

蓄水池抽样算法（Reservoir Sampling）

得克特

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
蓄水池算法

给定一个数据流，数据流长度N很大，且N直到处理完所有数据之前都不可知，请问如何在只遍历一遍数据（O(N)）的情况下，能够随机选取出m个不重复的数据。我们需要找到一种随机的方式使的每个样本被取出的概率为CN−1m−1CNm=mN\frac{C^{m-1}_{N-1}}{C^{m}_{N}}=\frac{m}{N}CNmCN−1m−1=Nm采用的方式是前m个样本全部取出，对于大于m的样本i，以mi\frac{m}{i}im的概率选择该元素，并从现有的m个样本随机一个位置替换。推导一下计算i
复制链接

扫一扫

专栏目录