蓄水池算法

参考文章:http://www.cnblogs.com/ywl925/p/3793003.html
问题定义

给你一个长度为N的链表。N很大,但你不知道N有多大。你的任务是从这N个元素中随机取出k个元素。你只能遍历这个链表一次。你的算法必须保证取出的元素恰好有k个,且它们是完全随机的(出现概率均等)。

求解

蓄水池抽样算法:

该算法是针对从一个序列中随机抽取不重复的k个数,保证每个数被抽取到的概率为k/n这个问题而构建的。做法是: -
首先构建一个可放k个元素的蓄水池,将序列的前k个元素放入蓄水池中。
然后从第k+1个元素开始,以k/n的概率来决定该元素是否被替换到池子中。 当遍历完所有元素之后,就可以得到随机挑选出的k个元素。复杂度为O(n).

其伪代码如下:

Init : a reservoir with the size: k
for i= k+1 to N

        M=random(1, i);
        if( M < k)
             SWAP the Mth value and ith value
   end for

证明每个数被取到的概率为k/n:

对于第i个数这里写图片描述,在前k步被选中的概率是1, 从第k+1步开始,i不被选中的概率为k/k+1,那么读到第n个数时, 第i个数这里写图片描述被选中的概率 = 被选中的概率 * 以后每一步都不被换走的概率,即
1 * k/k+1 * k+1/k+2 …n-1/n = k/n

对于第j个数(j>=k)被选中的概率为: 在他出现时被选中的概率 * 在他出现以后不被换走的概率,即:
k/j * j /j+1 。。。n-1/n = k/n

综上得证。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值