最近涉及到抽样的算法,记录下: 蓄水池算法 看这边blog差不多了:http://blog.csdn.net/huagong_adu/article/details/7619665大意就是,先抽m个出来,然后对于不知道终结在哪里的流,依次考虑 ki/kj,是否进行替代根据公式,可以算得每个样本的概率一致 data stream 文献地址 http://arxiv.org/pdf/1012.0256.pdf