用途
蓄水池算法常被用来解决“采样问题”,比如从 100000 份调查报告中抽取 1000 份进行统计、从1000个人中抽10个人中奖。
对于这些问题,我们可以先对数据进行一次遍历,计算出数据的总量N,然后随机选取k个作为被抽到的样本。但是这样做并不好,因为遍历要花费很多时间。
蓄水池算法
蓄水池算法的过程:
-
假设数据序列的规模为 n,需要采样的数量的为 k。
-
首先构建一个可容纳 k 个元素的数组,将序列的前 k 个元素放入数组中。
-
从第 k+1 个元素(假设它是第m个元素)开始,它会以k/m的概率进入数组中。并且会随机替换掉数组中的一个数,数组中每个数替换的概率是1/k。
-
当遍历完所有元素之后,数组中剩下的元素即为所需采取的样本。
-
对于其中每个元素,被保留的概率都为 k/n。
证明:
【搞定算法】蓄水池算法
代码实现
#include<iostream>
#include<vector>
using namespace std;
// 从N个元素中等概率的选出K个
vector<int> sampling(int K, int N)
{
srand(time(NULL));//设置随机数种子,使每次产生的随机序列不同
if (N < 1 || K < 1 || N < K)
{
return {};
}
//构建数组,需要把第i个数放入数组
vector<int> bag(K + 1);
for (int i = 1; i <= K; i++)
{
// 前K个数据直接放进数组中
bag[i] = i;
}
// K+1个元素开始进行概率抽样
for(int i = K; i <=N; i++)
{
//剩下的数会有k/i的概率进入数组中,
//产生从1~i的随机数,如果产生的随机数<=K,就说明中了概率
if ((rand() % i+1) <= K)
{
//替换的下标
int bagi = rand() % K + 1;
bag[bagi] = i;
}
}
return bag;
}