10.20 水塘抽样(Reservoir Sampling)

水塘抽样是一种在内存有限的情况下,从大型数据流中进行等概率随机抽样的算法。它只需遍历数据一次,确保每个元素有相等的被选中概率。算法的核心是在遍历到第i个元素时,以k/i的概率决定是否将其选入样本。代码实现包括k=1和k>1的情况。在C++中,rand()函数用于生成随机数,通过取模运算确定是否替换已有样本。该算法的时间复杂度为O(n)。
摘要由CSDN通过智能技术生成


当内存无法加载全部数据时,如何从包含未知大小的数据流中随机选取k个数据,并且要保证每个数据被抽取到的概率相等?

水塘抽样

主要用于解决大数据流中的随机抽样问题,即:当内存有限,数据长度很大,甚至未知,那么如何从中随机选取k个数据,并且要求是等概率

算法核心

水塘抽样的核心是,只遍历一次,每次都考虑一个问题:当前元素是否被选中,选中后替换之前选中的哪一个元素。
如果要随机选择K个元素,那么在遍历到第i个元素时,以k/i的概率选择该元素。

采样过程:集合中总元素个数为n,随机选取k个元素
step1.首先将前k个元素全部选取。
step2.对于第i个元素(i>k),以概率k/i来决定是否保留该元素,如果保留该元素的话,则随机丢弃掉原有的k个元素中的一个(即原来某个元素被丢掉的概率是1/k)。
结果:每个元素被最终被选取的概率都是k/n。

数学原理

在遍历到第i个元素时,如果以k/i的概率保留,并且使得最终被选中,那么之后的n-i个元素都要不被替换才行。

注意,在第i+1个元素时,第i个元素不被替换的概率,也就是第i+1个元素不被保留的概率是1-k/(i+1)*1/k,后面这个1/k表示在result数组中等概率被替换到。

即:

在这里插入图片描述
个元素被都是以概率k/n,等概率的被选择到。由于水塘抽样必须遍历一次所有数据,所以时间复杂度是O(n)。

代码实现

两种情况:
当k=1时:

def reservoirS1(arr):
	res=arr[0]
	i=1
	while i<len(arr):
		# 概率1/i选取第i个元素作为结果
		r=random.randint(0,i)
		if r==0:
			res=arr[i]
		i+=1
	return res

当k>1时:

def reservoirS2(arr):
	res=arr[:k]
	i=k
	while i<len(arr):
		# 以k/i的概率选取第i个元素,用来等概率的替换之前选中的1个元素
		r=random.randint(0,i)
		if r<k:
			res[r]=arr[i]
		i+=1
	return res

rand()问题

(在LeetCode上做的题是用c++写的,刚开始一直没想明白一个题解里的这句话啥意思:

if(num==target){
	if(rand()%count==0){
		res=i;
     }

rand()的用法:
rand()不需要参数,它会返回一个从0到最大随机数的任意整数,最大随机数的大小通常是固定的一个大整数。
如果你要产生0~10的10个整数,可以表达为:
int N = rand() % 11;
这样,N的值就是一个0-10的随机数,如果要产生1-10,则是这样:
int N = 1 + rand() % 10;
总结来说,可以表示为:
a + rand() % n
其中的a是起始值,n是整数的范围。
  a + rand() % (b-a+1) 就表示 a~b之间的一个随机数
若要0-1的小数,则可以先取得0-10的整数,然后均除以10即可得到随机到十分位的10个随机小数,若要得到随机到百分位的随机小数,则需要先得到0~100的10个整数,然后均除以100,其它情况依
此类推。
通常rand()产生的随机数在每次运行的时候都是与上一次相同的,这是有意这样设计的,是为了便于程序的调试。若要产生每次不同的随机数,可以使用srand( seed )函数进行随机化,随着seed的不同,就能够产生不同的随机数。

参考来源

原文链接:https://blog.csdn.net/u013036495/article/details/85181840
原文链接:https://blog.csdn.net/sinat_15443203/article/details/104401048

ContextCapture 10.20是一个软件程序,用于进行地理数据的捕捉和处理。安装ContextCapture 10.20需要按照以下步骤进行操作:首先,安装主程序。其次,在安装完成后,需要打补丁来确保软件的正常运行。最后,安装中文包以方便使用中文界面。 如果您已经完成了安装,可以在桌面上找到软件ContextCapture Center Master,并打开文件安装的位置。接下来,您需要将数据中提供的bentley.entliclib.dll文件放到该目录下,以替换原文件。 如果您还没有下载软件,请先准备好软件包数据。您可以在提供的链接中下载ContextCapture 10.20的软件包数据,并使用提取码进行解压。然后运行CCCenter-10.20.0.4117.x64-en文件来开始安装。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [【CC精品教程】ContextCapture 10.20安装教程(附CC10.20安装包下载)](https://blog.csdn.net/lucky51222/article/details/132390301)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *2* *3* [【板栗糖GIS】CC—ContextCapture10.20的安装教程](https://blog.csdn.net/weixin_46192906/article/details/127230148)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值