若对一个数据流维护一个固定大小的采样(例如s个元素),且对数据流当前到达的第n+1个数据元素以𝑠/(𝑛+1)概率决定其是否放入采样池中,并以概率1/𝑠随机置换采样池中某一元素,请证明该采样是一个随机采样。
证明:已知第n+1个元素以 𝑠/(𝑛+1)概率决定是否放入采样池中Pn+1=s/(𝑛+1)
设某元素在采样池中,可能性分2种
1、并未以第n+1次采样,采样出 (1-𝑠/(𝑛+1))设为 P1
2、发生了n+1次采样,但是目标元素未被置换 (𝑠/(𝑛+1)*s-1/s)设为 P2
P1+P2=n/n+1
此刻 发生的前提条件为第n个元素以 s/n 采样为前提
∴ 符合第n+1个情况
∴该采样为一个随机采样