【蓄水池抽样应用之】如何等概率的从N个元素中选取出K个元素

如何等概率的从N个元素中选取出K个元素?
这个问题就是一个蓄水池抽样( Reservoir Sampling),算法可以如下描述:

 Init : a reservoir with the size: k 

                       for   i= k+1 to N

                              M=random(1, i);

                              if( M < k)

                                      SWAP the Mth value and ith value

                        end for

网上有人给出了证明,先转过来:

【转】

证明:

 

每次都是以 k/i 的概率来选择 
例: k=1000的话,从1001开始作选择,1001被选中的概率是1000/1001,1002被选中的概率是1000/1002,与我们直觉是相符的。 
 
接下来证明: 
     假设当前是i+1, 按照我们的规定,i+1这个元素被选中的概率是k/i+1,也即第 i+1 这个元素在蓄水池中出现的概率是k/i+1 
     此时考虑前i个元素,如果前i个元素出现在蓄水池中的概率都是k/i+1的话,说明我们的算法是没有问题的。 
    
对这个问题可以用归纳法来证明:k < i <=N 
   1.当i=k+1的时候,蓄水池的容量为k,第k+1个元素被选择的概率明显为k/(k+1), 此时前k个元素出现在蓄水池的概率为 k/(k+1), 很明显结论成立。 
   2.假设当 j=i 的时候结论成立,此时以 k/i 的概率来选择第i个元素,前i-1个元素出现在蓄水池的概率都为k/i。  
      证明当j=i+1的情况: 
      即需要证明当以 k/i+1 的概率来选择第i+1个元素的时候,此时任一前i个元素出现在蓄水池的概率都为k/(i+1). 
前i个元素出现在蓄水池的概率有2部分组成, ①在第i+1次选择前得出现在蓄水池中,②得保证第i+1次选择的时候不被替换掉 
       ①.由2知道在第i+1次选择前,任一前i个元素出现在蓄水池的概率都为k/i 
       ②.考虑被替换的概率:   
首先要被替换得第 i+1 个元素被选中(不然不用替换了)概率为 k/i+1,其次是因为随机替换的池子中k个元素中任意一个,所以不幸被替换的概率是 1/k,故 
       前i个元素中任一被替换的概率 = k/(i+1) * 1/k = 1/i+1 
       则没有被替换的概率为:   1 - 1/(i+1) = i/i+1 
综合① ②,通过乘法规则 
得到前i个元素出现在蓄水池的概率为 k/i * i/(i+1) = k/i+1 
  故证明成立 

 

对于抽样问题,最近看见了一些方法,做个总结:

问题:要求从1,2,3..n中,以等概率的方式,抽取m个元素

1、使用上面的蓄水池抽样

void sample_pool(const int N, const int m)
{
       int i, rd;
        int* x = new int[N];
        for(i = 0 ; i < N ; i ++)
            x[i] = i + 1;
         for(i = m ; i < N; i ++ )
        {
             rd = rand()%i;
             if(rd < m)
             swap(x[i],x[rd]);
         }
         for(i = 0 ; i < m; i ++)
             cout<<x[i]<<" ";
         delete []x;
         x = NULL;
}//空间和时间均为O(N)


2 、从N个中选取m个, 可以先确定一个后,然后从身下的N-1个中选取m-1个出来。

void sample_rand(const int N,const int m)
{
        int select = m,i,rd;
        int remain = N;
        for(i = 0; i < N ; i++)
        {
             rd = rand()%remain;
             if(rd < select)
            {
                  cout<< i<<" ";
                  select--;
             }
             remaining--;
          }
}


 上面这个方法非常经典,是Knuth在the art of computer programming中提出的。使用的额外空间为O(1),时间为O(N)。其概率的证明也是非常简单的。简单推到可发现,是等概率选择每个元素的。而且,最后肯定会选择刚刚好m个元素,前面一直没选择的话,则当remaining == select时,就会都选择。

3、将抽样的看成是一个集合,则要从N中选择出m个不同的元素,存入到集合中,可用set来完成

利用STL中的set来完成这个功能。

void sample_set(const int N,const int m)
{
	set<int>s;
	while(s.size()<m)
	{
		s.insert(rand()%n);
	}
	for(set<int>::iterator it = s.begin();it!=s.end();it++)
		cout<<*it<<" ";
}


4、扰乱一个递增序列。

for i =[0,N)

swap(x[i],x[rand(i,n-1)];

有人证明,只要扰乱前m个就可以。

void sample_shuf(const int N,const int m)
{
	int i, j;
	int *x = new int[N];
	for(i = 0 ; i <N; i++)  x[i]=i+1;
	for(i = 0 ; i < m ; i ++)
	{
		j = rand(i,n-1);
		swap(x[i],x[j]);
	}
	sort(x,x+m);
	Print(x,m);
	delete []x;x= NULL;
}


关于采样的几个问题:

1、Given a random number generator which can generate the number in rang(1,5)uniformly, how can u use it to build a random number generator which can generate the number in range(1,7) uniformly?

解答:利用拒绝采样定理

       首先,将(1,5)之间的随机发生器使用两次,按照五进制进行使用,拼成一个(1,25)的随即发生器既:([gen][gen])5,每一[]为一个5进制上的位,换算为十进制为:x=gen*5+gen,在十进制上的范围为:6-30,进行一个简单的左移动,可换算成1-25范围上的值; 然后将(1,25)平均分配到7中情况上面,考虑21是7的倍数,因此可以每三个做一个映射(当然,也可以不管,直接截断7后面的数字,但是范围太小,效率不高),1-3--》1,4-6--》2,19-21--》7,此时就是等概率的,如果产生了22-25之间的数字,可以有两种方法决定结果:

     (1)拒绝采样,重新再运算

     (2)如果得到了22-25之间的数字,则此次的随即发生器结果,直接使用上一次得到的结果。这个方法有人证明过,是等概率的,算法Metropolis Algorithm。

五进制表示:                     --> 对应的十进制:                减5平移

11 12 13 14 15                     6   7   8   9   10              1   2   3   4   5

21 22 23 24 25                     11  12  13  14  15              6   7   8   9   10

31 32 33 34 35                     16  17  18  19  20              11  12  13  14  15

41 42 43 44 45                     21  22  23  24  25              16  17  18  19  20

51 52 53 54 55                     26  27  28  29  30              21  22  23  24  25

2、Generate a random permutation for a deck of cards

解答:

        从后往前,第k步的时候,随机产生一个1-k,之间的数字j,然后交换j和k处的数字,可以很容易的最后这个排列就是一个等概率得到的排列。

for k=N:1

    j = rand(1,k)

     swap(j,k)

end

      同样的,也可以从前往后进行这个过程,不过产生的范围就是变成k-N之间了。

for k = 1:N

     j = rand(k,N)

      swap(j,k)

end

### 回答1: 这个问题可以使用著名的蓄水池抽样算法(Reservoir Sampling)来解决。 算法思路如下: 1.我们先将前$K$个元素先放到一个数组$R$中。 2.从第$K+1$个元素开始,对于第$i$个元素,我们随机生成一个$[1,i]$之间的整数$r$,若$r\le K$,则将$R$数组中的第$r$个元素替换成当前元素。 3.重复步骤2,直到所有的元素都被遍历完。 最终,$R$数组中的元素就是我们要求的$K$个元素,且每个元素被抽中的概率相等。 证明: 对于前$K$个元素,它们被选中的概率显然为1。 对于第$i$个元素($i>K$),假设它被选中的概率为$\frac{K}{i}$,则它在第$j$次被选中的概率为: $$P_j=\frac{K}{j}\prod_{m=j+1}^i(1-\frac{K}{m})=\frac{K}{i}\prod_{m=j}^{i-1}(1-\frac{K}{m})$$ 我们需要证明,对于第$j$次遍历,第$i$个元素被选中的概率为$\frac{K}{i}$,即: $$\sum_{j=K+1}^i P_j=\frac{K}{i}$$ 证明如下: $$ \begin{aligned} \sum_{j=K+1}^i P_j&=\sum_{j=K+1}^i \frac{K}{j}\prod_{m=j}^{i-1}(1-\frac{K}{m})\\ &=\frac{K}{i}\prod_{m=K+1}^{i-1}(1-\frac{K}{m})\sum_{j=K+1}^i\frac{i}{j}\\ &=\frac{K}{i}\prod_{m=K+1}^{i-1}(1-\frac{K}{m})[1+\frac{1}{2}+\frac{1}{3}+...+\frac{1}{i}]\\ &\le\frac{K}{i}\prod_{m=K+1}^{i-1}(1-\frac{K}{m})\ln i\\ &=\frac{K}{i}\prod_{m=K}^{i-1}(1-\frac{K}{m})\ln i\\ &=\frac{K}{i}\frac{i!}{K!(i-K)!}\prod_{m=K}^{i-1}(1-\frac{K}{m})\ln i\\ &=\frac{K}{i}\binom{i}{K}\prod_{m=K}^{i-1}(1-\frac{K}{m})\ln i\\ &=\frac{K}{i}\frac{i!}{K!(i-K)!}\prod_{m=K}^{i-1}(1-\frac{K}{m})\ln i\\ &=\frac{K}{i}\frac{i!}{K!(i-K)!}\prod_{m=K}^{i-1}\frac{m-K}{m}\ln i\\ &=\frac{K}{i}\frac{i!}{K!(i-K)!}\frac{(i-1)!}{K!}\ln i\\ &=\frac{K}{i}\frac{i!}{(K-1)!(i-K)!}\ln i\\ &=\frac{K}{i}\binom{i-1}{K-1}\ln i\\ &=\frac{K}{i}\binom{i}{K}\frac{\ln i}{i/K}\\ &=\frac{K}{i}\binom{i}{K}\ln i-\frac{K}{i}\binom{i}{K}\ln(K)\\ &=\frac{K}{i} \end{aligned} $$ 因此,对于每个元素,被选中的概率均为$\frac{K}{N}$。 ### 回答2: 从$N$个元素中随机抽取$K$个元素,$N$的个数不确定,要求保证每个数字被抽中的概率相等的方法是使用简单随机抽样。 简单随机抽样是指在$N$个元素中,每个元素被抽中的概率相等。为了满足概率相等的要求,可以按照以下步骤进行操作: 1. 给每个元素一个编号,编号从1到$N$。 2. 生成一个在1到$N$之间均匀分布的随机数,表示第一个被抽中的元素的编号。假设生成的随机数是$x_1$。 3. 将被抽中的第一个元素从候选元素中去除,剩下的元素个数为$N-1$。 4. 重复步骤2和步骤3,生成第二个被抽中的元素的编号$x_2$,直到抽取了$K$个元素。 通过上述步骤,即可实现从$N$个元素中随机抽取$K$个元素,且每个元素被抽中的概率相等。 需要注意的是,这种方法要求生成的随机数是真正的随机且均匀分布的。在计算机中可以使用随机数生成器来生成符合要求的随机数。不同的编程语言和工具都提供了相关的随机数生成函数,可以直接调用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值