海量数据中随机抽查K个样本 算法

现在做爬虫阶段的数据分析,需要针对每一个站点随机抽检K个url,那么,如何从巨大数量的url中做到随机抽检呢?url的总数是不知道的,当然你可以扫描两次,第一次得到url总是,但是,有更好的做法。

 

(哈哈,我要无耻的说 原创 转帖标签不好看 :))

 

以下引用来自:http://wansishuang.iteye.com/blog/443902

要求从N个元素中随机的抽取k个元素,其中N无法确定。

 

  是在 《计算机程序设计与艺术》 中看到的这个题目,书中只给出了解法,没给出证明。

 

  解决方法是叫Reservoir Sampling (蓄水池抽样)

 

 

                       Init : a reservoir with the size: k

 

                       for   i= k+1 to N

                              M=random(1, i);

                              if( M < k)

                                      SWAP the Mth value and i

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值