随机抽样问题(蓄水池问题 Reservoir Sampling)

原创 2016年08月31日 10:25:32

【问题】

随机抽样问题表示如下:

要求从N个元素中随机的抽取k个元素,其中N无法确定。

这种应用的场景一般是数据流的情况下,由于数据只能被读取一次,而且数据量很大,并不能全部保存,因此数据量N是无法在抽样开始时确定的;但又要保持随机性,于是有了这个问题。所以搜索网站有时候会问这样的问题。

这里的核心问题就是“随机”,怎么才能是随机的抽取元素呢?我们设想,买彩票的时候,由于所有彩票的中奖概率都是一样的,所以我们才是“随机的”买彩票。那么要使抽取数据也随机,必须使每一个数据被抽样出来的概率都一样。

【解决】

解决方案就是蓄水库抽样(reservoid sampling)。主要思想就是保持一个集合(这个集合中的每个数字出现),作为蓄水池,依次遍历所有数据的时候以一定概率替换这个蓄水池中的数字。

其伪代码如下:

Init : a reservoir with the size: k
        
for    i= k+1
 to N
            M
=random(1
, i);
            
if( M <
 k)
                 SWAP the Mth value and ith value
       end 
for

解释一下:程序的开始就是把前k个元素都放到水库中,然后对之后的第i个元素,以k/i的概率替换掉这个水库中的某一个元素。

下面来具体证明一下:每个水库中的元素出现概率都是相等的。

【证明】

(1)初始情况。出现在水库中的k个元素的出现概率都是一致的,都是1。这个很显然。

(2)第一步。第一步就是指,处理第k+1个元素的情况。分两种情况:元素全部都没有被替换;其中某个元素被第k+1个元素替换掉。

我们先看情况2:第k+1个元素被选中的概率是k/(k+1)(根据公式k/i),所以这个新元素在水库中出现的概率就一定是k/(k+1)(不管它替换掉哪个元素,反正肯定它是以这个概率出现在水库中)。下面来看水库中剩余的元素出现的概率,也就是1-P(这个元素被替换掉的概率)。水库中任意一个元素被替换掉的概率是:(k/k+1)*(1/k)=1/(k+1),意即首先要第k+1个元素被选中,然后自己在集合的k个元素中被选中。那它出现的概率就是1-1/(k+1)=k/(k+1)。可以看出来,旧元素和新元素出现的概率是相等的。

情况1:当元素全部都没有替换掉的时候,每个元素的出现概率肯定是一样的,这很显然。但具体是多少呢?就是1-P(第k+1个元素被选中)=1-k/(k+1)=1/(k+1)。

(3)归纳法:重复上面的过程,只要证明第i步到第i+1步,所有元素出现的概率是相等的即可

版权声明:本文为博主原创文章,未经博主允许不得转载。

蓄水池抽样算法 (Reservoir Sampling Algorithm)

蓄水池抽样算法简介 蓄水池抽样算法随机算法的一种,用来从 N 个样本中随机选择 K 个样本,其中 N 非常大(以至于 N 个样本不能同时放入内存)或者 N 是一个未知数。其时间复杂度为 O(N)...
  • DT1105461889
  • DT1105461889
  • 2016年12月29日 21:06
  • 426

随机抽样问题(蓄水池问题Reservoir Sampling)

随即抽样问题:    要求从N个元素中随机的抽取k个元素,其中N无法确定。   是在 《计算机程序设计与艺术》 中看到的这个题目,书中只给出了解法,没给出证明。   解决方法是叫Reservoir S...
  • mba16c35
  • mba16c35
  • 2014年06月06日 13:33
  • 493

蓄水池抽样(Reservoir Sampling)问题

蓄水池抽样(Reservoir Sampling)问题分析 问题: 要求从N个元素中随机的抽取k个元素,其中N无法确定。 这种应用的场景一般是数据流的情况下,由于数据只能被读取一次,...
  • china_wanglong
  • china_wanglong
  • 2013年07月30日 22:13
  • 788

spark源码解读2之水塘抽样算法(Reservoir Sampling)

更多代码请见:https://github.com/xubo245/SparkLearningspark源码解读系列环境:spark-1.5.2、hadoop-2.6.0、scala-2.10.41....
  • bob601450868
  • bob601450868
  • 2016年11月04日 19:51
  • 1225

随机抽样——蓄水池抽样算法(Reservoir Sampling)

转自:http://www.cnblogs.com/HappyAngel/archive/2011/02/07/1949762.html 问题起源于编程珠玑Column 12中的题目10,其描述...
  • u010497228
  • u010497228
  • 2015年02月14日 16:55
  • 277

蓄水池抽样 - Reservoir Sampling

转自: http://www.guokr.com/blog/745588/ 题目要求: 从个元素中随机抽取个元素,但的个数无法事先确定。 在实际应用中,往往会遇到很大数据流的情况。因此,我们无法先...
  • YtdxYHZ
  • YtdxYHZ
  • 2016年08月02日 03:04
  • 236

Reservoir Sampling - 蓄水池抽样

问题起源于编程珠玑Column 12中的题目10,其描述如下:   How could you select one of n objects at random, where you see t...
  • doc_sgl
  • doc_sgl
  • 2013年08月31日 21:03
  • 1232

蓄水池抽样(reservoir sampling)

蓄水池抽样(reservoir sampling),通俗一点而言,就是等概率的抽样算法,一般是在不知道总体样本的数量情况下。...
  • u013011270
  • u013011270
  • 2016年08月15日 21:51
  • 860

蓄水池算法(Reservoir Sampling)

蓄水池算法(Reservoir Sampling) 2011年10月16日 what 发表评论 阅读评论 问题描述,从N个元素中随机抽取k个元素,使得每个元素被抽取的概率相同,并且事先不...
  • qq_30089175
  • qq_30089175
  • 2017年12月04日 10:03
  • 23

Reservoir Sampling 蓄水池抽样

Reservoir Sampling:从N个数中随机抽取k个元素,保证每个元素被选中的概率相等,N不知道有多大。 分析:这个问题称为蓄水池抽样,经典方法: Init : a reservo...
  • hqh45
  • hqh45
  • 2016年05月22日 22:19
  • 383
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:随机抽样问题(蓄水池问题 Reservoir Sampling)
举报原因:
原因补充:

(最多只允许输入30个字)