【概率论】一种非常巧妙的随机抽样算法

最新推荐文章于 2024-05-27 23:39:15 发布

seh_sjlj

最新推荐文章于 2024-05-27 23:39:15 发布

阅读量913

点赞数

分类专栏：概率论数据结构与算法文章标签：概率论算法数学抽样

本文链接：https://blog.csdn.net/qaqwqaqwq/article/details/128707855

版权

数据结构与算法同时被 2 个专栏收录

13 篇文章

订阅专栏

概率论

11 篇文章

订阅专栏

假设我们现在要在集合 $\{0,1,2,\cdots,n-1\}$ 中随机抽取 $k$ 个数（ $k\le n$ ）。显然每个元素被抽中的概率均为 $\frac{k}{n}$ 。C++代码如下：

vector<int> sample_integers(int n, int k = 3)
	// 在{0, 1, 2, ..., n - 1}中等可能地抽取k个元素
{
    vector<int> result;
    int i = 0;
    for(; n > 0; ++i, --n)
    {
        if(gen() % n < k) // 这个i被选中的几率是k/n
        {
            --k;
            result.push_back(i);
        }
    }
    return result;
}

时间复杂度为 $O (n)$ 。要理解这种算法的正确性，我们只需证明每个元素被抽中的几率都是 $\frac{k}{n}$ 。又因为数学归纳法，我们只需证明第一个元素被抽中的概率等于后面的元素被抽中的概率。

显然，抽中第一个元素 $0$ 的概率是 $\frac{k}{n}$ 。如果第一个元素被抽中了，那么后面的每个元素被抽中的概率是 $\frac{k-1}{n-1}$ ；如果第一个元素没有被抽中，后面的每个元素被抽中的概率是 $\frac{k}{n-1}$ 。根据全概率公式，后面的每个元素被抽中的概率是 $\begin{aligned} P\{\text{后面的某个被抽中抽}\}&=P\{\text{后面的某个被抽中抽}|\text{第一个元素被抽中}\}P\{\text{第一个元素被抽中}\}\\&\qquad+P\{\text{后面的某个被抽中抽}|\text{第一个元素没有被抽中}\}P\{\text{第一个元素没有被抽中}\}\\ &=\frac{k-1}{n-1}\frac{k}{n}+\frac{k}{n-1}\frac{n-k}{k}\\ &=\frac{k}{n-1}\frac{k-1}{n}+\frac{k}{n-1}\frac{n-k}{n}\\ &=\frac{k}{n-1}\left(\frac{k-1}{n}+\frac{n-k}{n}\right)\\ &=\frac{k}{n-1}\frac{n-1}{n}\\ &=\frac{k}{n} \end{aligned}$ 这样就证明了抽中每个元素的概率均为 $\frac{k}{n}$ 。