随即抽样问题:
要求从N个元素中随机的抽取k个元素,其中N无法确定。
是在 《计算机程序设计与艺术》 中看到的这个题目,书中只给出了解法,没给出证明。
解决方法是叫Reservoir Sampling (蓄水池抽样)
Init : a reservoir with the size: k
for i= k+1 to N
M=random(1, i);
if( M < k)
SWAP the Mth value and ith value
end for
证明:
每次都是以 k/i 的概率来选择
例: k=1000的话, 从1001开始作选择,1001被选中的概率是1000/1001,1002被选中的概率是1000/1002,与我们直觉是相符的。
接下来证明:
假设当前是i+1, 按照我们的规定,i+1这个元素被选中的概率是k/i+1,也即第 i+1 这个元素在蓄水池中出现的概率是k/i+1
此时考虑前i个元素,如果前i个元素出现在蓄水池中的概率都是k/i+1的话,说明我们的算法是没有问题的。
对这个问题可以用归纳法来证明:k < i <=N
1.当i=k+1的时候,蓄水池的容量为k,第k+1个元素被选择的概率明显为k/(k+1), 此时前k个元素出现在蓄水池的概率为 k/(k+1), 很明显结论成立。
2.假设当 j=i 的时候结论成立,此时以 k/i 的概率来选择第i个元素,前i-1个元素出现在蓄水池的概率都为k/i。
证明当j=i+1的情况:
即需要证明当以 k/i+1 的概率来选择第i+1个元素的时候,此时任一前i个元素出现在蓄水池的概率都为k/(i+1).
前i个元素出现在蓄水池的概率有2部分组成, ①在第i+1次选择前得出现在蓄水池中,②得保证第i+1次选择的时候不被替换掉
①.由2知道在第i+1次选择前,任一前i个元素出现在蓄水池的概率都为k/i
②.考虑被替换的概率:
首先要被替换得第 i+1 个元素被选中(不然不用替换了)概率为 k/i+1,其次是因为随机替换的池子中k个元素中任意一个,所以不幸被替换的概率是 1/k,故
前i个元素中任一被替换的概率 = k/(i+1) * 1/k = 1/i+1
则没有被替换的概率为: 1 - 1/(i+1) = i/i+1
综合① ②,通过乘法规则
得到前i个元素出现在蓄水池的概率为 k/i * i/(i+1) = k/i+1
故证明成立
这也是一道类似的随机算法题
问题背景:
有一副牌假设有N张,请设计一个随机洗牌算法。
解决方案:
这里只给出一个可以使用数学证明每张牌出现在任何位置概率为1/N的算法。
Poker[N]
for (i = 0; i < N; ++i)
{
k = rand() % ( i + 1)
if (i != k)
{
switch(Poker[k], Poker[i]);
}
}
分析:
第一次取第一张牌(i=0)保持位置不变。第二次取第二张牌(i=1),随机生成0-1的随机数k,如果随机生成数不为1,则交换下标为k和i的牌,否则不进行交换。
假设现在取第Z张牌(i = Z - 1), k= rand()%Z, 如果k!=i则交换下标为k和i的两张牌。
这个算法粗看起来有点像蓄水池抽样的操作方法。这样我们来看一下每张牌出现位置的概率。
第一次计算时第一张牌(i=0)出现在第一个位置的概率为1。
第二次计算时第二张牌(i=1)很明显出现在两个位置中的概率都是1/2。
我们就是要证明第Z(Z<=N)次计算时每张牌出位位置的概率为1/Z。
下面采用归纳法来证明。
1. 很明显Z=1时结论成立。
2. 假设当Z = K时结论也成立。
当Z=K+1时,易知第Z张牌出现在任意位置的概率为1/Z。
前K个数能够保留当前位置的概率为(1 - 1/(K+1)), 那么任意一张牌出现在任意位置的概率为(1/K) *(1 - 1/(K+1)) = 1/(K+1)。
3. 同样当Z=N时该算法也成立。