实际问题
从n个数据中随机取得m个数,n>m
算法大概思路
源数据的数组为a[] 大小为n “水池”即存放取出的数据的数组为b[] 大小为m 若要做到随机 则每个数据被选中的概率则为m/n
进行如下操作
①对数组a[]进行遍历,设置j为遍历时当前元素下标,将a[]数组的前m个数据依次存入数组b[]中,此操作a[]数组中的前m个数被加入b[]数组的概率为100%即为1
②当j=m-1时,此时b[]数组的元素已满,若后面的元素要加入b[]数组,则要与池中的元素替换
替换的规则:(j为当前元素的下标,此时j>=m),在0-j的范围内随机出一个数字 r ,r<m 则将j对应的元素(a[j])值赋给水池中的b[r],水池中r对应的数据被替换,被替换的概率为1/(j+1)---{因为数组从0开始,所以0-j有j+1个数}。而当前元素a[j]也就是j对应元素被选入水池的概率为r/(j+1)。
如果r>m,则j++向前移动,也就表示池中的数据没有被替换。
③j每向前移动一步则重复步骤②,直到数组a[]被完全遍历
分析前m个数和m之后的数被选入池中的概率
根据替换规矩可得出
①前m个数据 :
当j=m-1时,前m个数据被选入池中,概率

该博客介绍了蓄水池抽样算法,用于从n个数据中随机选择m个数。文章详细阐述了算法思路,分析了前m个数和m之后数被选中的概率,并提供了JAVA代码实现及测试,结果显示各数据项被选中的概率均衡。
最低0.47元/天 解锁文章
970

被折叠的 条评论
为什么被折叠?



