水塘抽样 / 蓄水池抽样算法 (详解+推导+代码) 史上最完美笔记

J0neLi

已于 2022-04-22 15:05:41 修改

阅读量324

点赞数 2

分类专栏：算法文章标签：算法

于 2022-04-18 21:12:26 首次发布

本文链接：https://blog.csdn.net/m0_48199641/article/details/124259623

版权

算法专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Reservoir Sampling（水塘抽样 / 蓄水池抽样）

用于解决当内存无法加载全部数据时，从包含未知大小的数据流中随机选取 $k$ 个数据，并且要保证每个数据被抽取到的概率相等的问题。

说人话就是对于不知道数量的数据，仅遍历一遍且不用保存全部数据就能得出结果。
正常情况下需要先遍历一遍得到数据的大小n,再抽取结果，抽取结果时要么是将数据再遍历一遍选取对应位置的数据，要么是将所有数据保存下来，直接获取对应位置的数据。

$k = 1$

$\frac{1}{i} 的几率保留，作为最终的结果。$

总共有 $1$ 个数时 :

$p(n_1) = \frac{1}{1} = 1$

总共有 $2$ 个数时 :

$结果为n_1的概率 = 选择n_1的概率 \times 不保留n_2的概率$

$p(n_1) = p(n_1) \times (1-p(n_2)) = 1 \times ( 1 - \frac{1}{2}) = \frac{1}{2}$

$p(n_2) = \frac{1}{2}$

总共有 $3$ 个数时 :

$结果为n_1的概率 = 选择n_1的概率 \times 不保留n_2的概率 \times 不保留n_3的概率$

$p(n_1) = p(n_1) \times (1-p(n_2)) \times (1-p(n_3)) = 1 \times ( 1 - \frac{1}{2}) \times ( 1 - \frac{1}{3}) = \frac{1}{3}$

$结果为n_2的概率 = 选择n_2的概率 \times 不保留n_3的概率$

$p(n_2) = p(n_2) \times (1-p(n_3)) = \frac{1}{2} \times ( 1 - \frac{1}{3}) = \frac{1}{3}$

$p(n_3) = \frac{1}{3}$

总共有 $n$ 个数，对于第 $m$ 个和第 $n$ 数 :

$结果为n_m的概率 = 选择n_m \times 不保留n_{m+1} \times 不保留n_{m+2} \times\ldots \times 不保留n_{n-1} \times 不保留n_{n}$

$p(n_m) = \frac{1}{m} \times \frac{m}{m+1} \times \frac{m+1}{m+2} \times \ldots \times \frac{n-2}{n-1} \times \frac{n-1}{n} = \frac{1}{n}$

$p(n_n) = \frac{1}{n}$

public int getRandom(Sample sample)
{
    int index = 1;
    int choice = 0;

    while (sample != null)
    {
        if (random.nextInt(index) == 0)
        {
            choice = sample.val;
        }

        index++;
        sample = sample.nextSample;
    }

    return choice;
}

$k > 1$

$对于前 k 个数据，全部保留。$
$\frac{k}{k+i} 的几率保留，以 \frac{1}{k}的几率替换当前保留的k个数中的一个，作为最终的结果。$

总共有 $k$ 个数时 :

$p(n_r[r\in1:k])=1$

总共有 $k + 1$ 个数时 :

$结果为n_r[r\in1:k]的概率 = 选择n_r \times n_{k+1}不替换n_r$

$n_{k+1}不替换n_r的概率 = 不保留n_{k+1} +保留n_{k+1} \times 不替换n_r$

$p(n_r) =1\times (\frac{1}{k+1} + \frac{k}{k+1} \times \frac{k-1}{k}) = \frac{k}{k+1}$

$p(n_{k+1}) =\frac{k}{k+1}$

总共有 $n$ 个数，对于第 $m$ 个和第 $n$ 个数 :

$结果为n_m的概率 = 选择n_m \times n_{m+1}不替换n_m \times n_{m+2}不替换n_m \times\ldots \times n_{n-1}不替换n_m \times n_n不替换n_m$

$p(n_m) = \frac{k}{m} \times \frac{m}{m+1} \times \frac{m+1}{m+2} \times \ldots \times \frac{n-2}{n-1} \times \frac{n-1}{n} = \frac{k}{n}$

$p(n_n) = \frac{k}{n}$

public int[] getRandom(Sample sample, int k)
{
    int index = 1;
    int[] choice = new int[k];

    for (int i = 0; i < k; i++)
    {
        choice[i] = sample.val;
        sample = sample.nextSample;
    }

    while (sample != null)
    {
        int randomNum = random.nextInt(index);

        if (randomNum < k)
        {
            choice[randomNum] = sample.val;
        }

        index++;
        sample = sample.nextSample;
    }

    return choice;
}