水库抽样算法是一个典型的空间亚线性算法。在很多时候我们要在海量数据中进行均匀的抽样,由于我们要取样的是海量数据,以至于只能遍历一次。
水库抽样的要求是,每一时刻取到的样本都是前面已经流过的全部数据的均匀抽样。
算法描述
从N(未知)个元素中随机的抽取k个元素,遍历一次,保证每个元素抽到的概率相同(k/n);
具体做法
1、初始化数组A,大小为k;
2、遍历1~k放入数组A;
3、从k+1开始,当接收到第i个数据t时,随机数j∈[1,i],若j<=k,则使用t替换A[j]。
算法原理
1、因为生成的随机数j的范围是[1,i],而当数字j小于等于k时,才会被替换进数组A,所以对于每个新到来的元素i,它是以
k
i
\frac{k}{i}
ik的概率被收入集合的。
2、当第i+1个元素到来时,被替换进数组的概率是
P
i
=
k
i
+
1
P_{i}=\frac{k}{i+1}
Pi=i+1k,而此时,前一个元素i被从中替换出来的概率为
P
o
=
1
k
P_{o}=\frac{1}{k}
Po=k1。
则当第i+1个元素到来时第i个元素被替换出去的概率为
P
i
∗
P
o
P_{i}*P_{o}
Pi∗Po,那么没有被替换出来的概率为
P
n
r
e
p
=
1
−
P
i
∗
P
o
=
i
i
+
1
P_{nrep}=1-P_{i}*P_{o}=\frac{i}{i+1}
Pnrep=1−Pi∗Po=i+1i。
3、那么当第i+2,i+3…个元素到来时,第i个元素没有被替换出来的概率为
i
+
1
i
+
2
\frac{i+1}{i+2}
i+2i+1,
i
+
2
i
+
3
\frac{i+2}{i+3}
i+3i+2…
4、若最终元素i被选入集合中,意味着一直遍历到n时,期间所有的替换,i都没有被替换出来,其概率为:
k
i
×
i
i
+
1
×
i
+
1
i
+
2
×
i
+
2
i
+
3
×
.
.
.
×
n
−
1
n
=
k
n
\frac{k}{i}\times\frac{i}{i+1}\times\frac{i+1}{i+2}\times\frac{i+2}{i+3}\times... \times\frac{n-1}{n}=\frac{k}{n}
ik×i+1i×i+2i+1×i+3i+2×...×nn−1=nk
算法证明
也可以用数学归纳法进行证明:看这里。