水库抽样算法

随机抽样问题表示如下:

要求从N个元素中随机的抽取k个元素,其中N无法确定。

这种应用的场景一般是数据流的情况下,由于数据只能被读取一次,而且数据量很大,并不能全部保存,因此数据量N是无法在抽样开始时确定的;但又要保持随机性,于是有了这个问题。所以搜索网站有时候会问这样的问题。

这里的核心问题就是“随机”,怎么才能是随机的抽取元素呢?我们设想,买彩票的时候,由于所有彩票的中奖概率都是一样的,所以我们才是“随机的”买彩票。那么要使抽取数据也随机,必须使每一个数据被抽样出来的概率都一样。

【解决】

解决方案就是蓄水库抽样(reservoir sampling)。主要思想就是保持一个集合(这个集合中的每个数字出现),作为蓄水池,依次遍历所有数据的时候以一定概率替换这个蓄水池中的数字。

其伪代码如下:

Init : a reservoir with the size: k
        for    i= k+1 to N
            M=random(1, i);
            if( M <= k)
                 SWAP the Mth value and ith value
       end for

解释一下:程序的开始就是把前k个元素都放到水库中,然后对之后的第i个元素,以k/i的概率替换掉这个水库中的某一个元素,所以每个元素被替换的概率是1/i

需要证明以这种方法选择,所有的元素等概率被选择。归纳法证明如下:

1、[初始情况] 当尚未选择时,出现在pool中的n个元素概率是相同的,都是1。证明当第n+1个元素以n/(n+1)的概率被选中时,前n个元素在pool中的概率为n/(n+1),即新旧元素被选中的概率相同:

  • 任意元素被替换的概率为:(n/(n+1)) * (1/n) = 1/(n+1)
  • 所以前n个元素被选择(没有被替换)的概率为:1-1/(n+1) = n/(n+1)
  • 而且前n个元素在选择前在pool中的概率为1,因此两概率相乘:1 * (n/(n+1)) = n/(n+1),符合结论

2、[假设] 当第i个元素以n/i的概率被选中时,前i-1个元素被选中的概率同样都是n/i。

3、[证明] 第i+1个元素的情况:前i个元素被选中的概率由两部分组成:

  • 第i+1次选择之前,这i个元素在pool中:

    • 由假设知,前i个元素被选中的概率为n/i,也就是在pool中的概率
  • 第i+1次选择没有替换掉现在pool中的元素:

    • 先算任意元素被替换的概率: (n/(i+1)) * (1/n) = 1/(i+1)
    • 因此没有被替换掉的概率为:1-1/(i+1) = i/(i+1)

    由a和b相乘,即得到前i个元素被选中的概率:(n/i) * (i/(i+1)) = n/(i+1),符合假设。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值