1.马尔可夫链及其平稳分布
马尔可夫链的定义很简单,即后一个状态只与前面一个状态相关
$$p(x_t|x_{t-1},\cdots,x_{1})=p(x_t|x_{t-1})$$
2.马氏链定理
如果一个非周期马尔可夫链具有状态转移矩阵\(P\),且它的任意两个状态都是连通的,那么\(\mathop{lim} \limits_{n\rightarrow \infty}(P^n)_{ij}\)存在且与\(i\)无关,记\(\mathop{lim} \limits_{n\rightarrow \infty}(P^n)_{ij}=\pi_j\),那么有
1.$$P^n = \left[\begin{matrix} \pi_1 & \cdots & \pi_j & \cdots \\ \pi_1 & \cdots & \pi_j & \cdots \\ \pi_1 & \cdots & \pi_j & \cdots\end{matrix}\right]$$
2.$$\pi_j=\sum_i \pi_iP_{ij}$$
3.$$\pi P=\pi$$
其中\(\pi\)称作马尔可夫链的平稳分布。
3.MCMC
给定一个概率分布\(p(x)\),如果希望生成它的样本,那么可以找到一个马尔可夫链,使得它的平稳分布为\(p(x)\),那么根据该马尔可夫链的转移矩阵进行转移,在该马尔可夫链收敛之后就能得到\(p(x)\)的样本
细致平稳条件
若状态转移矩阵和概率分布\pi(x)满足
$$\pi_iP_{ij}=\pi_jP_{ji}$$
则称\pi(x)为该马尔可夫链的平稳分布。
假设想要得到从\(p(x)\)中采样出它的样本,且我们已经有了一个状态转移矩阵\(P\),通常
$$p(i)P_{ij}\neq p(j)P_{ji}$$
因此我们引入一个\(\alpha_{ij}\)并令
$$\alpha_{ij}=p(j)P_{ji}$$
则有
$$p(i)P_{ij}\alpha_{ij}=p(j)P_{ji}\alpha_{ji}$$
我们取新的状态转移矩阵
$$Q_{ij}=P_{ij}\alpha_{ij}$$。
此时\(Q\)所对应的马尔可夫链的平稳分布即为p(x)。
其中\(\alpha_{ij}\)可以被认为是接受率,也就是说,以\(p_{ij}\)的概率从\(i\)转移到\(j\)时,我们以\(\alpha_{ij}\)的概率接受新的状态\(j\)。
可以将MCMC采样的过程总结如下
1.初始化状态\(X_0=x_0\)
2.对于\(t=1,2,\cdots\)
从\(P(x|x_{t-1})\)中采样出y
从[0,1]的均匀分布中采样\(u\)
若\(u<\alpha_{x_{t-1}y}\),则接受\(X_t=y\),否则保持原有状态\(X_t=X_{t-1}\)
上述过程存在一定缺点,当\(\alpha_{ij}\)很小时,大量的转移会被拒绝,从而导致马尔可夫链收敛缓慢,因此可以对\(\alpha_{ij}\)进行一下改造,考虑细致平稳条件
$$p(i)P_{ij}\alpha_{ij}=p(j)P_{ji}\alpha_{ji}$$
将上式子两边同时除以\(\alpha_{ji}\)我们得到
$$p(i)P_{ij}\frac{\alpha_{ij}}{\alpha_{ji}}=p(j)P_{ji}$$
因此我们得到最终的MCMC采样
1.初始化状态\(X_0=x_0\)
2.对于\(t=1,2,\cdots\)
从\(P(x|x_{t-1})\)中采样出y
从[0,1]的均匀分布中采样\(u\)
若\(u<\min(\frac{\alpha(x_{t-1},y)}{\alpha(y,x_{t-1})},1),则接受X_t=y\),否则保持原有状态\(X_t=X_{t-1}\)