蓄水池采样算法
前段时间在笔试题上遇到这样一个程序题,假设总共有m个元素,从中随机抽取n个元素,要求每个元素被取到的概率相等。其中m有无限大,即无法通过一次遍历知道有多少个元素。
算法过程:
设总共有m个元素,需要采集n个元素。
首先构建一个数组,将前n个元素存放进数组中,这个数组也叫做蓄水池。
接着,从i=n+1个数开始,任取r为0~n之间的整数,如果r>n,则不进行替换,否则,将蓄水池中的第r个元素,替换为i。
只需要通过一次遍历,就能完成采样,每个元素都有n/m的概率被抽到,时间复杂度为需要遍历的元素个数,即O(m)。