蓄水池抽样算法

最新推荐文章于 2022-03-22 13:49:57 发布

然后就去远行吧

最新推荐文章于 2022-03-22 13:49:57 发布

阅读量258

点赞数

分类专栏：数据结构与算法

本文链接：https://blog.csdn.net/qq_37388085/article/details/105709405

版权

1 篇文章 0 订阅

订阅专栏

1、蓄水池抽样算法伪代码：

Init : a reservoir with the size： k  
for i= k+1 to N  
    M=random(1, i);  
    if( M < k)  
     SWAP the Mth value and ith value  
end for

算法思路大致如下：

算法的精妙之处在于：当处理完所有的数据时，蓄水池中的每个数据都是以m/N的概率获得的。

对于已经存在于蓄水池中的数据，当蓄满数据后，对于第i个数据，i>m，其可能替代水池中第k个数据的概率为 $1 / i$ ，水池中第k个数据不被替代的概率为 $(i - 1) / i$ 。也就是说，当水池蓄满后，对于水池中的第k个数据，其被保留的概率为 $P(k)=\frac{m}{m+1}*\frac{m+1}{m+2}*...*\frac{N-1}{N}=\frac{m}{N}$
当蓄水池满了之后，对于不在蓄水池中的数据i，该数据需要被替换到水池中，替换到水池中的概率为 $P(i)=\frac{m}{i}$ ，对于从i+1开始的数据，其不选到第k个数据所在的值的概率为 $P(i+1)=\frac{i}{i+1}$ ，以此类推，第N个数据没有选到第k个数据所在的值的概率为 $P(N)=\frac{N-1}{N}$ ，于是可以得到，第i个数据最后保留在水池中的概率为 $P(i)=\frac{m}{i}*\frac{i}{i+1}*...*\frac{N-1}{N}=\frac{m}{N}$
通过上面的推导就可以知道不管是最先放进蓄水池中的数据还是后面超过m的数据，其最后存在于水池中的概率都为 $\frac{m}{N}$ 。