当内存无法加载全部数据时,如何从包含未知大小的数据流中随机选取k个数据,并且要保证每个数据被抽取到的概率相等?
水塘抽样
主要用于解决大数据流中的随机抽样问题,即:当内存有限,数据长度很大,甚至未知,那么如何从中随机选取k个数据,并且要求是等概率。
算法核心
水塘抽样的核心是,只遍历一次,每次都考虑一个问题:当前元素是否被选中,选中后替换之前选中的哪一个元素。
如果要随机选择K个元素,那么在遍历到第i个元素时,以k/i的概率选择该元素。
采样过程:集合中总元素个数为n,随机选取k个元素
step1.首先将前k个元素全部选取。
step2.对于第i个元素(i>k),以概率k/i来决定是否保留该元素,如果保留该元素的话,则随机丢弃掉原有的k个元素中的一个(即原来某个元素被丢掉的概率是1/k)。
结果:每个元素被最终被选取的概率都是k/n。
数学原理
在遍历到第i个元素时,如果以k/i的概率保留,并且使得最终被选中,那么之后的n-i个元素都要不被替换才行。
注意,在第i+1个元素时,第i个元素不被替换的概率,也就是第i+1个元素不被保留的概率是1-k/(i+1)*1/k,后面这个1/k表示在result数组中等概率被替换到。
即:
个元素被都是以概率k/n,等概率的被选择到。由于水塘抽样必须遍历一次所有数据,所以时间复杂度是O(n)。
代码实现
两种情况:
当k=1时:
def reservoirS1(arr):
res=arr[0]
i=1
while i<len(arr):
# 概率1/i选取第i个元素作为结果
r=random.randint(0,i)
if r==0:
res=arr[i]
i+=1
return res
当k>1时:
def reservoirS2(arr):
res=arr[:k]
i=k
while i<len(arr):
# 以k/i的概率选取第i个元素,用来等概率的替换之前选中的1个元素
r=random.randint(0,i)
if r<k:
res[r]=arr[i]
i+=1
return res
rand()问题
(在LeetCode上做的题是用c++写的,刚开始一直没想明白一个题解里的这句话啥意思:
if(num==target){
if(rand()%count==0){
res=i;
}
rand()的用法:
rand()不需要参数,它会返回一个从0到最大随机数的任意整数,最大随机数的大小通常是固定的一个大整数。
如果你要产生0~10的10个整数,可以表达为:
int N = rand() % 11;
这样,N的值就是一个0-10的随机数,如果要产生1-10,则是这样:
int N = 1 + rand() % 10;
总结来说,可以表示为:
a + rand() % n
其中的a是起始值,n是整数的范围。
a + rand() % (b-a+1) 就表示 a~b之间的一个随机数
若要0-1的小数,则可以先取得0-10的整数,然后均除以10即可得到随机到十分位的10个随机小数,若要得到随机到百分位的随机小数,则需要先得到0~100的10个整数,然后均除以100,其它情况依
此类推。
通常rand()产生的随机数在每次运行的时候都是与上一次相同的,这是有意这样设计的,是为了便于程序的调试。若要产生每次不同的随机数,可以使用srand( seed )函数进行随机化,随着seed的不同,就能够产生不同的随机数。
参考来源
原文链接:https://blog.csdn.net/u013036495/article/details/85181840
原文链接:https://blog.csdn.net/sinat_15443203/article/details/104401048