蓄水池抽样(reservoir sampling)

自从工作之后,就再也没有时间更新博客了,接下来的时间博主将不断更新遇到的问题及解决方案!

问题描述:等概率的从一个数据流或者队列中选择1个元素或者k个元素,数据流或者队列总长度未知!该问题可以使用如下抽样方法解决!

蓄水池抽样(reservoir sampling),通俗一点而言,在不知道总体样本的数量情况下,等概率进行抽样de算法。

1)当只选择1个样本的时候

解法:我们总是选择第一个对象,以1/2的概率选择第二个,以1/3的概率选择第三个,以此类推,以1/m的概率选择第m个对象。当该过程结束时,每一个对象具有相同的选中概率,即1/n

        证明:第m个对象最终被选中的概率P=选择m的概率*其后面所有对象不被选择的概率,即

                                    

i = 1   choice = 0
while more input items
       if random(0, i) == 0 
              choice = i
       ++i
 

2)当选择K个样本的时候

解法:以类似的思路解决。先把读到的前k个对象放入“水库”,对于第k+1个对象开始,以k/(k+1)的概率选择该对象,以k/(k+2)的概率选择第k+2个对象,以此类推,以k/m的概率选择第m个对象(m>k)。如果m被选中,则随机替换水库中的一个对象。最终每个对象被选中的概率均为k/n        

证明:第m个对象被选中的概率=选择m的概率*(其后元素不被选择的概率+其后元素被选择的概率*不替换第m个对象的概率),即

                                  

array S[n];    //source, 0-based  
array R[k];    // result, 0-based  
integer i, j;  
  
// fill the reservoir array  
for each i in 0 to k - 1 do  
        R[i] = S[i]  
done;  
  
// replace elements with gradually decreasing probability  
for each i in k to n do  
        j = random(0, i);   // important: inclusive range  
        if j < k then  
                R[j] = S[i]  
        fi  
done 

3) 分布式蓄水池抽样

基本的蓄水池抽样要求对数据流进行顺序读取。要进行容量为k的分布式蓄水池抽样(前面讨论的容量都为1),对于集合中的每一个元素,都产生一个0-1的随机数,之后选取随机值最大的前k个元素。这种方法在对大数据集进行分层抽样的时候非常管用。

4) 加权分布式蓄水池抽样

集合中的数据是有权重的,算法希望数据被抽样选中的概率和该数据的权重成比例。对于每个数据计算一个0-1的值R,并求r的n次方根作为该数据的新的R值。这里的n就是该数据的权重。最终算法返回前k个R值最高的数据然后返回。根据计算规则,权重越大的数据计算所得的R值越接近1,所以越有可能被返回。


参考文献:

1. 2005年pavlos efraimidis和paul spirakis的论文《weighted random sampling with a reservoir》。

2. http://blog.jobbole.com/42550/

3. http://blog.csdn.net/huagong_adu/article/details/7619665


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值