水库抽样算法精简总结

水库抽样算法

问题描述

输入:一组数据,大小未知

输出:这组数据的K个均匀抽取

要求:仅扫描一次

总体要求:从N个元素中随机的抽取k个元素,其中N无法确定,保证每个元素抽到的概率相同

解决方案

一些符号:k为要抽样的个数,N为总体个数位置,n为当前遍历的元素的位置。pool为k大小的数组,用来保存抽到的样本

n<=k,把当前值放入pool中,构成初步样本

n>k,生成一个随机数p,如果p<k/n,那么把pool中的任意一个数替换为第n个数。如果p>=k/n,继续保留前面的数。直到数据流结束,返回此k个数。但是为了保证计算机计算分数额准确性,一般是生成一个0到n的随机数,跟k相比,道理是一样的。

特殊情况:当k=1时,从n(n>=2)开始以1/n的概率决定是否保留替换原来pool中元素

证明—归纳法

假设:当第n个元素以k/n,前n-1个元素也被选中的概率也为k/n

证明

    1)当n<=k时,出现在pool中的每个元素概率都是相同的,都为1
    2)当n=k+1时,计算前k个元素在pool的概率
    ==a==.前k个元素在pool中的元素概率都为1
    ==b==.由假设得,第k+1个元素被选中的概率为:k/(k+1),pool任意元素被替换的概率为(k/(k+1))*(1/k)=1/(k+1),没被替换(即选中)的概率为1-1/(k+1)=k/(k+1).
    由a*b=1*k/(k+1)=k/(k+1),前k个元素和k+1元素被选中的概率都为k/k+1。

    3)当n>k+1时,计算前n-1个元素在pool的概率
    ==a==.前n-1个元素在pool中被选择的的概率为k/(n-1)
    ==b==.由假设得,第n个元素被选中的概率为:k/n,pool任意元素被替换的概率为(k/n)*(1/k)=1/n,没被替换(即选中)的概率为1-1/n=(n-1/)n。
    由a*b=(k/(n-1))*((n-1)/n)=k/n,前k个元素和k+1元素被选中的概率都为k/n。

因为假设成立,所以到数据结束时,所有元素的抽到的概率都为k/N

  • 4
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
水库抽样算法是一种用于估计大规模数据集中某个属性的方法。它的基本思想是在不遍历整个数据集的情况下,通过随机抽样的方式获取部分数据来进行估计。 数学上,我们可以用概率论的方法来证明水库抽样算法的有效性。设想我们有一个包含N个元素的数据集,我们希望通过抽样得到一个大小为k的样本,其中每个元素被选中的概率都是相等的。 假设我们进行一次抽样,某个元素被选中的概率为p。由于每个元素被选中的概率相等,所以我们可以得到如下等式: p = k / N 假设我们进行了m次抽样,每次都独立地选择元素。现在我们来考虑某个特定的元素,在m次抽样中都没有被选中的概率。 在第一次抽样中,该元素没有被选中的概率为 (1-p) = (N-k)/N 在第二次抽样中,该元素没有被选中的概率也为 (N-k)/N 以此类推,在m次抽样中都没有被选中的概率为 ((N-k)/N)^m 现在我们来考虑该元素至少在m次抽样中被选中一次的概率。这个概率可以用1减去上面的概率来计算,即: 1 - ((N-k)/N)^m 当m趋近于无穷大时,上式中的 ((N-k)/N)^m 会趋近于0,所以该元素至少在m次抽样中被选中一次的概率会趋近于1。这意味着随着抽样次数的增加,每个元素被选中的机会趋近于相等,满足我们的要求。 综上所述,通过数学证明我们可以得出结论:水库抽样算法能够以相等的概率对数据集中的每个元素进行抽样,从而实现对整个数据集进行估计。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CuteXiaoKe

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值