蓄水池抽样算法 从n个数中随机取m个数(JAVA实现)

该博客介绍了蓄水池抽样算法,用于从n个数据中随机选择m个数。文章详细阐述了算法思路,分析了前m个数和m之后数被选中的概率,并提供了JAVA代码实现及测试,结果显示各数据项被选中的概率均衡。
摘要由CSDN通过智能技术生成

实际问题

从n个数据中随机取得m个数,n>m    

算法大概思路

源数据的数组为a[]  大小为n    “水池”即存放取出的数据的数组为b[] 大小为m     若要做到随机 则每个数据被选中的概率则为m/n

进行如下操作

①对数组a[]进行遍历,设置j为遍历时当前元素下标,将a[]数组的前m个数据依次存入数组b[]中,此操作a[]数组中的前m个数被加入b[]数组的概率为100%即为1

②当j=m-1时,此时b[]数组的元素已满,若后面的元素要加入b[]数组,则要与池中的元素替换

替换的规则:(j为当前元素的下标,此时j>=m),在0-j的范围内随机出一个数字 r  ,r<m 则将j对应的元素(a[j])值赋给水池中的b[r],水池中r对应的数据被替换,被替换的概率为1/(j+1)---{因为数组从0开始,所以0-j有j+1个数}。而当前元素a[j]也就是j对应元素被选入水池的概率为r/(j+1)。

如果r>m,则j++向前移动,也就表示池中的数据没有被替换。

③j每向前移动一步则重复步骤②,直到数组a[]被完全遍历

分析前m个数和m之后的数被选入池中的概率

根据替换规矩可得出

①前m个数据   :

当j=m-1时,前m个数据被选入池中,概率

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值