蓄水池采样

最新推荐文章于 2023-02-25 00:12:19 发布

强殖装甲凯普

最新推荐文章于 2023-02-25 00:12:19 发布

阅读量346

点赞数

分类专栏：算法题

本文链接：https://blog.csdn.net/qq_38163755/article/details/116850053

版权

算法题专栏收录该内容

14 篇文章 0 订阅

订阅专栏

文章目录

问题
解决

问题

给定一个数据流，数据流长度 $N$ 很大，且 $N$ 直到处理完所有数据之前都不可知，请问如何在只遍历一遍数据（O(N)）的情况下，能够等概率随机选取出 $k$ 个不重复的数据。

解决

这个主要考察蓄水池算法，具体就是：保存一个 $k$ 大小的窗口，然后依次接收数据流，对于数据流第 $i$ 个元素（ $i > k$ ），以 $\frac{k}{i}$ 的概率替换窗口中的某个元素，最终得到的 $k$ 个元素就是均匀采样得到的，每个元素被采到的概率都是 $\frac{k}{N}$ 。

python实现：

import random

def reservoir_sampling(window, k, i, data):
    """
    每次得到数据流中的一个元素后怎么更新窗口
    :param window: 窗口
    :param k: 需要采样k个元素
    :param i: 当前数据流元素的索引，从0开始
    :param data: 当前得到的数据流元素
    :return: 更新后的window
    """
    if len(window) < k:
        window.append(data)
    else:
        # 从[0, i]中随机得到一个整数
        replace = random.randint(0, i)
        if replace < k:
            window[replace] = data
    return window

使用数学归纳法给出该算法合理性的简单证明。

假设 $i = 1$ ，每个元素被选中的概率为1；
设前 $i$ 个元素被选中的概率为 $\frac{k}{i}$ 。对于第 $i + 1$ 个元素，我们以 $\frac{k}{i+1}$ 的概率替换窗口中的元素，也就是说对于这个元素，被选中的概率是 $\frac{k}{i+1}$ 。对于窗口中原有的 $k$ 个元素，其被替换掉的概率为 $\frac{k}{i+1}*\frac{1}{k}$ ，那么除了最近得到的元素，其余元素被采样得到的概率为：
$\frac{k}{i}(1-\frac{k}{i+1}\frac{1}{k})=\frac{k}{i+1}$
所以遍历数据流之后，得到的 $k$ 个元素是以概率 $\frac{k}{N}$ 均匀采样得到的。