题目:
从N个元素中随机抽取K个元素,N的个数不确定,要求保证每个数字被抽中的概率相等。
解读:
这种应用的场景一般是数据流的情况下,由于数据只能被读取一次,而且数据量很大,并不能全部保存,因此数据量N是无法在抽样开始时确定的;但又要保证概率相等。
解决:
解决方案就是蓄水池抽样。主要思想就是保持一个集合(这个集合最终的数字就是被抽中的数字)。依次遍历所有数据的时候以一定的概率替换掉这个蓄水池中的数字。
其伪代码为:
Init : a reservoir with the size: k //初始化蓄水池为前K个数
for i= k+1 to N
M=random(1, i);
if( M < k)
SWAP the Mth value and ith value
end for
程序的开始就是把前K个元素都放到水库中,然后对之后的第i个元素,以k/i的概率替换掉这个水库中的某一个元素。
证明概率相等:
首先要明白,如果最终K个元素确定,则这K个元素出现的概率都是K/N。
下面来证明当读到第i个元素时,水库中每个元素出现的概率是K/i。
1)初始情况:出现在水库中的K个元素出现的概率都是1.
2)第一步:处理第K+1个元素的情况。分为两种情况:水库中元素都没有被替换;水库中某个元素被第K+1个元素替换掉。
对于情况2&#x