水库抽样算法证明

水库抽样算法

问题描述

输入:一组数据,大小未知

输出:这组数据的K个均匀抽取

要求:仅扫描一次

总体要求:从N个元素中随机的抽取k个元素,其中N无法确定,保证每个元素抽到的概率相同

解决方案
一些符号:k为要抽样的个数,N为总体个数位置,n为当前遍历的元素的位置。pool为k大小的数组,用来保存抽到的样本

n<=k,把当前值放入pool中,构成初步样本

n>k,生成一个随机数p,如果p<k/n,那么把pool中的任意一个数替换为第n个数。如果p>=k/n,继续保留前面的数。直到数据流结束,返回此k个数。但是为了保证计算机计算分数额准确性,一般是生成一个0到n的随机数,跟k相比,道理是一样的。

特殊情况:当k=1时,从n(n>=2)开始以1/n的概率决定是否保留替换原来pool中元素

证明—归纳法
假设:当第n个元素以k/n,前n-1个元素也被选中的概率也为k/n

证明:

1)当n<=k时,出现在pool中的每个元素概率都是相同的,都为1 
2)当n=k+1时,计算前k个元素在pool的概率 
==a==.前k个元素在pool中的元素概率都为1 
==b==.由假设得,第k+1个元素被选中的概率为:k/(k+1),pool任意元素被替换的概率为(k/(k+1))*(1/k)=1/(k+1),没被替换(即选中)的概率为1-1/(k+1)=k/(k+1). 
由a*b=1*k/(k+1)=k/(k+1),前k个元素和k+1元素被选中的概率都为k/k+1。

3)当n>k+1时,计算前n-1个元素在pool的概率 
==a==.前n-1个元素在pool中被选择的的概率为k/(n-1) 
==b==.由假设得,第n个元素被选中的概率为:k/n,pool任意元素被替换的概率为(k/n)*(1/k)=1/n,没被替换(即选中)的概率为1-1/n=(n-1/)n。 
由a*b=(k/(n-1))*((n-1)/n)=k/n,前k个元素和k+1元素被选中的概率都为k/n。

因为假设成立,所以到数据结束时,所有元素的抽到的概率都为k/N

代码实现:C++

//水库采样 用较小的开销来估计一个较大的数据流
#include<stdio.h>
#include<stdlib.h>
#include<time.h>
int main()
{
    int count=0;
    long long int sum_all=0;
    long int sum=0;
    int i=0;
    int data;//取数据
    int length=500;//水库大小
    int *set=(int *)malloc(length*sizeof(int));//定义一个集合
    int index=0;//下标
    int randIndex=0;//随机下标
    double randNum=0;//随机数
    FILE *fp=fopen("stream_sample.txt","r");
    srand(time(0));//以time(0)为种子
    if(!fp)
    {
        printf("file open failed !\n");
        system("pasue");
        return -1;
    }
    while(!feof(fp))
    {
        fscanf(fp,"%d",&data);//取文本中的数据
        sum_all+=data;//所有数据之和
        //打印所有数据
        //printf("%d\t",data);
        if(index<length)//水库填充时
        {
            set[index]=data;
            index++;
        }
        else//水库被填充满时
        {
            randNum=(rand()%(index+1));
            if(randNum<length)
            {
                randIndex=rand()%length;
                set[randIndex]=data;
            }
            index++;
        }

    }
    printf("\n-----------------------------------------\n");
    printf("一共有%d个数据\n",index);
    printf("\n-----------------------------------------\n");
    printf("水库中的数");
    for(i=0;i<length;i++)
    {
        printf("%d\t",set[i]);
    }
    printf("\n");

    printf("\n-----------------------------------------\n");
    
    printf("\n-----------------------------------------\n");
    for(i=0;i<length;i++)
    {
        sum+=set[i];//水库中的叠加
    }
    printf("%lf\t%lf",(double)sum/length,(double)sum_all/(index-1));
    printf("\n");
    
    fclose(fp);
    system("pause");
    return 0;
}
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值