10.20 水塘抽样(Reservoir Sampling)


当内存无法加载全部数据时,如何从包含未知大小的数据流中随机选取k个数据,并且要保证每个数据被抽取到的概率相等?

水塘抽样

主要用于解决大数据流中的随机抽样问题,即:当内存有限,数据长度很大,甚至未知,那么如何从中随机选取k个数据,并且要求是等概率

算法核心

水塘抽样的核心是,只遍历一次,每次都考虑一个问题:当前元素是否被选中,选中后替换之前选中的哪一个元素。
如果要随机选择K个元素,那么在遍历到第i个元素时,以k/i的概率选择该元素。

采样过程:集合中总元素个数为n,随机选取k个元素
step1.首先将前k个元素全部选取。
step2.对于第i个元素(i>k),以概率k/i来决定是否保留该元素,如果保留该元素的话,则随机丢弃掉原有的k个元素中的一个(即原来某个元素被丢掉的概率是1/k)。
结果:每个元素被最终被选取的概率都是k/n。

数学原理

在遍历到第i个元素时,如果以k/i的概率保留,并且使得最终被选中,那么之后的n-i个元素都要不被替换才行。

注意,在第i+1个元素时,第i个元素不被替换的概率,也就是第i+1个元素不被保留的概率是1-k/(i+1)*1/k,后面这个1/k表示在result数组中等概率被替换到。

即:

在这里插入图片描述
个元素被都是以概率k/n,等概率的被选择到。由于水塘抽样必须遍历一次所有数据,所以时间复杂度是O(n)。

代码实现

两种情况:
当k=1时:

def reservoirS1(arr):
	res=arr[0]
	i=1
	while i<len(arr):
		# 概率1/i选取第i个元素作为结果
		r=random.randint(0,i)
		if r==0:
			res=arr[i]
		i+=1
	return res

当k>1时:

def reservoirS2(arr):
	res=arr[:k]
	i=k
	while i<len(arr):
		# 以k/i的概率选取第i个元素,用来等概率的替换之前选中的1个元素
		r=random.randint(0,i)
		if r<k:
			res[r]=arr[i]
		i+=1
	return res

rand()问题

(在LeetCode上做的题是用c++写的,刚开始一直没想明白一个题解里的这句话啥意思:

if(num==target){
	if(rand()%count==0){
		res=i;
     }

rand()的用法:
rand()不需要参数,它会返回一个从0到最大随机数的任意整数,最大随机数的大小通常是固定的一个大整数。
如果你要产生0~10的10个整数,可以表达为:
int N = rand() % 11;
这样,N的值就是一个0-10的随机数,如果要产生1-10,则是这样:
int N = 1 + rand() % 10;
总结来说,可以表示为:
a + rand() % n
其中的a是起始值,n是整数的范围。
  a + rand() % (b-a+1) 就表示 a~b之间的一个随机数
若要0-1的小数,则可以先取得0-10的整数,然后均除以10即可得到随机到十分位的10个随机小数,若要得到随机到百分位的随机小数,则需要先得到0~100的10个整数,然后均除以100,其它情况依
此类推。
通常rand()产生的随机数在每次运行的时候都是与上一次相同的,这是有意这样设计的,是为了便于程序的调试。若要产生每次不同的随机数,可以使用srand( seed )函数进行随机化,随着seed的不同,就能够产生不同的随机数。

参考来源

原文链接:https://blog.csdn.net/u013036495/article/details/85181840
原文链接:https://blog.csdn.net/sinat_15443203/article/details/104401048

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值