Reservoir sampling

水库抽样算法是一个典型的空间亚线性算法。在很多时候我们要在海量数据中进行均匀的抽样,由于我们要取样的是海量数据,以至于只能遍历一次。
水库抽样的要求是,每一时刻取到的样本都是前面已经流过的全部数据的均匀抽样。

算法描述

从N(未知)个元素中随机的抽取k个元素,遍历一次,保证每个元素抽到的概率相同(k/n);

具体做法

1、初始化数组A,大小为k;
2、遍历1~k放入数组A;
3、从k+1开始,当接收到第i个数据t时,随机数j∈[1,i],若j<=k,则使用t替换A[j]。

算法原理

1、因为生成的随机数j的范围是[1,i],而当数字j小于等于k时,才会被替换进数组A,所以对于每个新到来的元素i,它是以 k i \frac{k}{i} ik的概率被收入集合的。
2、当第i+1个元素到来时,被替换进数组的概率是 P i = k i + 1 P_{i}=\frac{k}{i+1} Pi=i+1k,而此时,前一个元素i被从中替换出来的概率为 P o = 1 k P_{o}=\frac{1}{k} Po=k1
则当第i+1个元素到来时第i个元素被替换出去的概率为 P i ∗ P o P_{i}*P_{o} PiPo,那么没有被替换出来的概率为 P n r e p = 1 − P i ∗ P o = i i + 1 P_{nrep}=1-P_{i}*P_{o}=\frac{i}{i+1} Pnrep=1PiPo=i+1i
3、那么当第i+2,i+3…个元素到来时,第i个元素没有被替换出来的概率为 i + 1 i + 2 \frac{i+1}{i+2} i+2i+1 i + 2 i + 3 \frac{i+2}{i+3} i+3i+2
4、若最终元素i被选入集合中,意味着一直遍历到n时,期间所有的替换,i都没有被替换出来,其概率为:
k i × i i + 1 × i + 1 i + 2 × i + 2 i + 3 × . . . × n − 1 n = k n \frac{k}{i}\times\frac{i}{i+1}\times\frac{i+1}{i+2}\times\frac{i+2}{i+3}\times... \times\frac{n-1}{n}=\frac{k}{n} ik×i+1i×i+2i+1×i+3i+2×...×nn1=nk

算法证明

也可以用数学归纳法进行证明:看这里

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值