海量数据中随机抽查K个样本算法

最新推荐文章于 2021-01-15 16:50:59 发布

iteye_17312

最新推荐文章于 2021-01-15 16:50:59 发布

阅读量330

点赞数

文章标签：爬虫面试

现在做爬虫阶段的数据分析，需要针对每一个站点随机抽检K个url，那么，如何从巨大数量的url中做到随机抽检呢?url的总数是不知道的，当然你可以扫描两次，第一次得到url总是，但是，有更好的做法。

（哈哈，我要无耻的说原创转帖标签不好看：））

以下引用来自：http://wansishuang.iteye.com/blog/443902

要求从N个元素中随机的抽取k个元素，其中N无法确定。

是在《计算机程序设计与艺术》中看到的这个题目，书中只给出了解法，没给出证明。

解决方法是叫Reservoir Sampling （蓄水池抽样）

Init : a reservoir with the size： k

for i= k+1 to N

M=random(1, i);

if( M < k)

SWAP the Mth value and ith value

end for

证明：

每次都是以 k/i 的概率来选择
例: k=1000的话，从1001开始作选择，1001被选中的概率是1000/1001，1002被选中的概率是1000/1002，与我们直觉是相符的。

接下来证明：
假设当前是i+1, 按照我们的规定，i+1这个元素被选中的概率是k/i+1，也即第 i+1 这个元素在蓄水池中出现的概率是k/i+1
此时考虑前i个元素，如果前i个元素出现在蓄水池中的概率都是k/i+1的话，说明我们的算法是没有问题的。

对这个问题可以用归纳法来证明：k < i <=N
1.当i=k+1的时候，蓄水池的容量为k，第k+1个元素被选择的概率明显为k/(k+1), 此时前k个元素出现在蓄水池的概率为 k/(k+1), 很明显结论成立。
2.假设当 j=i 的时候结论成立，此时以 k/i 的概率来选择第i个元素，前i-1个元素出现在蓄水池的概率都为k/i。
证明当j=i+1的情况：
即需要证明当以 k/i+1 的概率来选择第i+1个元素的时候，此时任一前i个元素出现在蓄水池的概率都为k/(i+1).
前i个元素出现在蓄水池的概率有2部分组成, ①在第i+1次选择前得出现在蓄水池中，②得保证第i+1次选择的时候不被替换掉
①.由2知道在第i+1次选择前，任一前i个元素出现在蓄水池的概率都为k/i
②.考虑被替换的概率：
首先要被替换得第 i+1 个元素被选中(不然不用替换了)概率为 k/i+1，其次是因为随机替换的池子中k个元素中任意一个，所以不幸被替换的概率是 1/k，故
前i个元素中任一被替换的概率 = k/(i+1) * 1/k = 1/i+1
则没有被替换的概率为: 1 - 1/(i+1) = i/i+1
综合① ②,通过乘法规则
得到前i个元素出现在蓄水池的概率为 k/i * i/(i+1) = k/i+1
故证明成立

看着以前如此遥远的算法应用到项目中，感觉不一样呀，公司面试狂面算法还是有道理的：）

iteye_17312

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
海量数据中随机抽查K个样本算法

现在做爬虫阶段的数据分析，需要针对每一个站点随机抽检K个url，那么，如何从巨大数量的url中做到随机抽检呢?url的总数是不知道的，当然你可以扫描两次，第一次得到url总是，但是，有更好的做法。（哈哈，我要无耻的说原创转帖标签不好看：））以下引用来自：http://wansishuang.iteye.com/blog/443902要求从N个元素中随机的抽取k个元素，...
复制链接

扫一扫