蓄水池算法

今天也要写bug、

已于 2022-06-22 22:40:47 修改

阅读量2.6k

点赞数 1

分类专栏：数据结构（C++实现）

于 2022-06-22 22:40:06 首次发布

本文链接：https://blog.csdn.net/qq_52670477/article/details/125417433

版权

蓄水池算法随机抽样数据采样概率算法实现

关键词由CSDN通过智能技术生成

数据结构（C++实现）专栏收录该内容

19 篇文章 5 订阅

订阅专栏

文章目录

用途
蓄水池算法
- 代码实现

用途

蓄水池算法常被用来解决“采样问题”，比如从 100000 份调查报告中抽取 1000 份进行统计、从1000个人中抽10个人中奖。

对于这些问题，我们可以先对数据进行一次遍历，计算出数据的总量N，然后随机选取k个作为被抽到的样本。但是这样做并不好，因为遍历要花费很多时间。

蓄水池算法

蓄水池算法的过程：

假设数据序列的规模为 n，需要采样的数量的为 k。
首先构建一个可容纳 k 个元素的数组，将序列的前 k 个元素放入数组中。
从第 k+1 个元素（假设它是第m个元素）开始，它会以k/m的概率进入数组中。并且会随机替换掉数组中的一个数，数组中每个数替换的概率是1/k。
当遍历完所有元素之后，数组中剩下的元素即为所需采取的样本。
对于其中每个元素，被保留的概率都为 k/n。

证明：
【搞定算法】蓄水池算法

代码实现

#include<iostream>
#include<vector>
using namespace std;

// 从N个元素中等概率的选出K个
vector<int> sampling(int K, int N) 
{
    srand(time(NULL));//设置随机数种子，使每次产生的随机序列不同
    if (N < 1 || K < 1 || N < K) 
    {
        return {};
    }
    //构建数组，需要把第i个数放入数组
    vector<int> bag(K + 1);

    for (int i = 1; i <= K; i++) 
    {
        // 前K个数据直接放进数组中
        bag[i] = i;
    }

    // K+1个元素开始进行概率抽样
    for(int i = K; i <=N; i++) 
    {
        //剩下的数会有k/i的概率进入数组中，
        //产生从1~i的随机数，如果产生的随机数<=K，就说明中了概率
        if ((rand() % i+1) <= K)
        {
            //替换的下标
            int bagi = rand() % K + 1;
            bag[bagi] = i;
        }
    }
    return bag;
}