蓄水池算法


用途

蓄水池算法常被用来解决“采样问题”,比如从 100000 份调查报告中抽取 1000 份进行统计、从1000个人中抽10个人中奖。

对于这些问题,我们可以先对数据进行一次遍历,计算出数据的总量N,然后随机选取k个作为被抽到的样本。但是这样做并不好,因为遍历要花费很多时间。

蓄水池算法

蓄水池算法的过程:

  1. 假设数据序列的规模为 n,需要采样的数量的为 k。

  2. 首先构建一个可容纳 k 个元素的数组,将序列的前 k 个元素放入数组中。

  3. 从第 k+1 个元素(假设它是第m个元素)开始,它会以k/m的概率进入数组中。并且会随机替换掉数组中的一个数,数组中每个数替换的概率是1/k。

  4. 当遍历完所有元素之后,数组中剩下的元素即为所需采取的样本。

  5. 对于其中每个元素,被保留的概率都为 k/n。

证明:
【搞定算法】蓄水池算法

代码实现

#include<iostream>
#include<vector>
using namespace std;

// 从N个元素中等概率的选出K个
vector<int> sampling(int K, int N) 
{
    srand(time(NULL));//设置随机数种子,使每次产生的随机序列不同
    if (N < 1 || K < 1 || N < K) 
    {
        return {};
    }
    //构建数组,需要把第i个数放入数组
    vector<int> bag(K + 1);

    for (int i = 1; i <= K; i++) 
    {
        // 前K个数据直接放进数组中
        bag[i] = i;
    }

    // K+1个元素开始进行概率抽样
    for(int i = K; i <=N; i++) 
    {
        //剩下的数会有k/i的概率进入数组中,
        //产生从1~i的随机数,如果产生的随机数<=K,就说明中了概率
        if ((rand() % i+1) <= K)
        {
            //替换的下标
            int bagi = rand() % K + 1;
            bag[bagi] = i;
        }
    }
    return bag;
}

在这里插入图片描述

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

今天也要写bug、

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值