分下面几个部分来介绍常见的随机采样方法:
一、拒绝——接受采样
该方法是用一个我们很容易采样到的分布去模拟需要采样的分布。它要满足一些条件,如下:
其具体的采集过程如下所示:
几何上的解释如下:
由上面的解释可知,其实是在给定一个样本x的情况下,然后又随机选取一个y值,该y值是在轮廓线Mq(x)下随机产生的,如果该y值落在2条曲线之间,则被拒绝,否则就会被接受。这很容易理解,关于其理论的各种推导这里就免了,太枯燥了,哈哈。
二、重要性采样。
我对重要性采样的理解是该方法目的并不是用来产生一个样本的,而是求一个函数的定积分的,只是因为该定积分的求法是通过对另一个叫容易采集分布的随机采用得到的(本人研究比较浅,暂时只能这么理解着)。如下图所示:
其中通过对q(x)的随机采样,得到大量的样本x,然后求出f(x)*w(x)的均值,最终得出积分I值。其中的w(x)也就是重要性了,此时如果q(x)概率大,则得到的x样本数就多,这样w(x)的值也就多了,也间接体现了它越重要。
三、 Metropolis-Hasting
该方法是用一个建议分布以一定概率来更新样本,有点类似拒绝——接受采样。其过程如下所示:
四、Gibbs采样
Gibss采用是需要知道样本中一个属性在其它所有属性下的条件概率,然后利用这个条件概率来分布产生各个属性的样本值。其过程如下所示:
参考资料:
http://www.jdl.ac.cn/user/lyqing/StatLearning/StatlLearning_handout.html