蓄水池算法

1.给出一个数据流,这个数据流的长度很大或者未知。并且对该数据流中数据只能访问一次。请写出一个随机选择算法,使得数据流中所有数据被选中的概率相等。

应用场景

  1. 有一个网页抓取器每秒钟抓取一个网页,定义一个API,每次调用的时候要等概率的从目前已经抓取的网页中随机选取一个,应该怎么实现?

  2. 后台开发中一个服务经常会打出很多log日志,从众多的而且还在不断产生的log 文件中,要等概率的从目前产生的log 中随机选取100条log ,应该怎么实现?

蓄水池算法

 问题起源于编程珠玑Column 12中的题目10,其描述如下:
  How could you select one of n objects at random, where you see the objects sequentially but you do not know the value of n beforehand? For concreteness, how would you read a text file, and select and print one random line, when you don’t know the number of lines in advance?
  问题定义可以简化如下:在不知道文件总行数的情况下,如何从文件中随机的抽取一行?
问题:如何随机从n个对象中选择一个对象,这n个对象是按序排列的,但是在此之前你是不知道n的值的。
思路:如果我们知道n的值,那么问题就可以简单的用一个大随机数rand()%n得到一个确切的随机位置,那么该位置的对象就是所求的对象,选中的概率是1/n。
但现在我们并不知道n的值,这个问题便抽象为蓄水池抽样问题,即从一个包含n个对象的列表S中随机选取k个对象,n为一个非常大或者不知道的值。通常情况下,n是一个非常大的值,大到无法一次性把所有列表S中的对象都放到内存中。我们这个问题是蓄水池抽样问题的一个特例,即k=1。
解法:我们总是选择第一个对象,以1/2的概率选择第二个,以1/3的概率选择第三个,以此类推,以1/m的概率选择第m个对象。当该过程结束时,每一个对象具有相同的选中概率,即1/n,证明如下。

证明:第m个对象最终被选中的概率P=选择m的概率*其后面所有对象不被选择的概率,即

p=1m×(mm+1×m+1m+2××n1n)=1n

    对应的该问题的伪代码如下:




1. i = 0  
2. while more input items  
3.         with probability 1.0 / ++i  
4.                 choice = this input item  
5. print choice  


    C++代码实现如下:




1.  #include <iostream>  
2. #include <cstdlib>  
3. #include <ctime>  
4. #include <vector>  
5.   
6. using namespace std;  
7.   
8. typedef vector<int> IntVec;  
9. typedef typename IntVec::iterator Iter;  
10. typedef typename IntVec::const_iterator Const_Iter;  
11.   
12. // generate a random number between i and k,  
13. // both i and k are inclusive.  
14. int randint(int i, int k)  
15. {  
16.     if (i > k)  
17.     {  
18.         int t = i; i = k; k = t; // swap  
19.     }  
20.     int ret = i + rand() % (k - i + 1);  
21.     return ret;  
22. }  
23.   
24. // take 1 sample to result from input of unknown n items.  
25. bool reservoir_sampling(const IntVec &input, int &result)  
26. {  
27.     srand(time(NULL));  
28.     if (input.size() <= 0)  
29.         return false;  
30.   
31.     Const_Iter iter = input.begin();  
32.     result = *iter++;  
33.     for (int i = 1; iter != input.end(); ++iter, ++i)  
34.     {  
35.         int j = randint(0, i);  
36.         if (j < 1)  
37.             result = *iter;   
38.     }  
39.     return true;  
40. }  
41.   
42. int main()  
43. {  
44.     const int n = 10;  
45.     IntVec input(n);  
46.     int result = 0;  
47.   
48.     for (int i = 0; i != n; ++i)  
49.         input[i] = i;  
50.     if (reservoir_sampling(input, result))  
51.         cout << result << endl;  
52.     return 0;  
53. }


    对应蓄水池抽样问题,可以类似的思路解决。**先把读到的前k个对象放入“水库”,对于第k+1个对象开始,以k/(k+1)的概率选择该对象,以k/(k+2)的概率选择第k+2个对象,以此类推,以k/m的概率选择第m个对象(m>k)。如果m被选中,则随机替换水库中的一个对象。最终每个对象被选中的概率均为k/n,证明如下。**

    证明:第m个对象被选中的概率=选择m的概率*(其后元素不被选择的概率+其后元素被选择的概率*不替换第m个对象的概率),即
      ![这里写图片描述](https://img-blog.csdn.net/20160813152645781)

    蓄水池抽样问题的伪代码如下:




1. array S[n];    //source, 0-based  
2. array R[k];    // result, 0-based  
3. integer i, j;  
4.   
5. // fill the reservoir array  
6. for each i in 0 to k - 1 do  
7.         R[i] = S[i]  
8. done;  
9.   
10. // replace elements with gradually decreasing probability  
11. for each i in k to n do  
12.         j = random(0, i);   // important: inclusive range  
13.         if j < k then  
14.                 R[j] = S[i]  
15.         fi  
16. done  


    C++代码实现如下,该版本假设n知道,但n非常大:


1. #include <iostream>  
2. #include <cstdlib>  
3. #include <ctime>  
4.   
5. using namespace std;  
6.   
7. // generate a random number between i and k,  
8. // both i and k are inclusive.  
9. int randint(int i, int k)  
10. {  
11.     if (i > k)  
12.     {  
13.         int t = i; i = k; k = t; // swap  
14.     }  
15.     int ret = i + rand() % (k - i + 1);  
16.     return ret;  
17. }                                                                                                                                                                                                                                                                                                                                                                                                                                                                               ,
18.   
19. // take m samples to result from input of n items.  
20. bool reservoir_sampling(const int *input, int n, int *result, int m)  
21. {  
22.     srand(time(NULL));  
23.     if (n < m || input == NULL || result == NULL)  
24.         return false;  
25.     for (int i = 0; i != m; ++i)  
26.         result[i] = input[i];  
27.   
28.     for (int i = m; i != n; ++i)  
29.     {  
30.         int j = randint(0, i);  
31.         if (j < m)  
32.             result[j] = input[i];     
33.     }  
34.     return true;  
35. }  
36.   
37. int main()  
38. {  
39.     const int n = 100;  
40.     const int m = 10;  
41.     int input[n];  
42.     int result[m];  
43.   
44.     for (int i = 0; i != n; ++i)  
45.         input[i] = i;  
46.     if (reservoir_sampling(input, n, result, m))  
47.         for (int i = 0; i != m; ++i)  
48.             cout << result[i] << " ";  
49.     cout << endl;  
50.     return 0;  
51. }  


    下面这个程序假设不知道n的大小

[cpp] view plain copy

1. #include <iostream>  
2. #include <cstdlib>  
3. #include <ctime>  
4. #include <vector>  
5.   
6. using namespace std;  
7.   
8. typedef vector<int> IntVec;  
9. typedef typename IntVec::iterator Iter;  
10. typedef typename IntVec::const_iterator Const_Iter;  
11.   
12. // generate a random number between i and k,  
13. // both i and k are inclusive.  
14. int randint(int i, int k)  
15. {  
16.     if (i > k)  
17.     {  
18.         int t = i; i = k; k = t; // swap  
19.     }  
20.     int ret = i + rand() % (k - i + 1);  
21.     return ret;  
22. }  
23.   
24. // take m samples to result from input of n items.  
25. bool reservoir_sampling(const IntVec &input, IntVec &result, int m)  
26. {  
27.     srand(time(NULL));  
28.     if (input.size() < m)  
29.         return false;  
30.   
31.     result.resize(m);  
32.     Const_Iter iter = input.begin();  
33.     for (int i = 0; i != m; ++i)  
34.         result[i] = *iter++;  
35.   
36.     for (int i = m; iter != input.end(); ++i, ++iter)  
37.     {  
38.         int j = randint(0, i);  
39.         if (j < m)  
40.             result[j] = *iter;  
41.     }  
42.     return true;  
43. }  
44.   
45. int main()  
46. {  
47.     const int n = 100;  
48.     const int m = 10;  
49.     IntVec input(n), result(m);  
50.   
51.     for (int i = 0; i != n; ++i)  
52.         input[i] = i;  
53.     if (reservoir_sampling(input, result, m))  
54.         for (int i = 0; i != m; ++i)  
55.             cout << result[i] << " ";  
56.     cout << endl;  
57.     return 0;  
58. }  


    本文参考:

http://www.cnblogs.com/HappyAngel/archive/2011/02/07/1949762.html

http://en.wikipedia.org/wiki/Reservoir_sampling

http://en.wikipedia.org/wiki/Fisher-Yates_shuffle

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值