MCMC 马尔可夫链蒙特卡洛

马尔可夫链蒙特卡洛

MCMC 是一种随机的近似推断,其核心就是基于采样的随机近似方法蒙特卡洛方法。对于采样任务来说,有下面一些常用的场景:

  1. 采样作为任务,用于生成新的样本
  2. 求和/求积分

采样结束后,我们需要评价采样出来的样本点是不是好的样本集:

  1. 样本趋向于高概率的区域
  2. 样本之间必须独立

具体采样中,采样是一个困难的过程:

  1. 无法采样得到归一化因子,即无法直接对概率   p ( x ) = 1 Z p ^ ( x )  p(x)=\frac{1}{Z}\hat{p}(x)  p(x)=Z1p^(x) 采样,常常需要对 CDF 采样,但复杂的情况不行
  2. 如果归一化因子可以求得,但是对高维数据依然不能均匀采样(维度灾难),这是由于对 p p p 维空间,总的状态空间是 K p K^p Kp 这么大,于是在这种情况下,直接采样也不行

因此需要借助其他手段,如蒙特卡洛方法中的拒绝采样,重要性采样和 MCMC。

蒙特卡洛方法

蒙特卡洛方法旨在求得复杂概率分布下的期望值: E z ∣ x [ f ( z ) ] = ∫ p ( z ∣ x ) f ( z ) d z ≃ 1 N ∑ i = 1 N f ( z i ) \mathbb{E}_{z|x}[f(z)]=\int p(z|x)f(z)dz\simeq\frac{1}{N}\sum\limits_{i=1}^Nf(z_i) Ezx[f(z)]=p(zx)f(z)dzN1i=1Nf(zi),也就是说,从概率分布中取 N N N 个点,从而近似计算这个积分。采样方法有:

  1. 概率分布采样,首先求得概率密度的累积密度函数 CDF,然后求得 CDF 的反函数,在0到1之间均匀采样,代入反函数,就得到了采样点。但是实际大部分概率分布不能得到 CDF。

  2. Rejection Sampling 拒绝采样:对于概率分布 p ( z ) p(z) p(z),引入简单的提议分布 q ( z ) q(z) q(z),使得 ∀ z i , M q ( z i ) ≥ p ( z i ) \forall z_i,Mq(z_i)\ge p(z_i) zi,Mq(zi)p(zi)。我们先在   q ( z )  q(z)  q(z) 中采样,定义接受率: α = p ( z i ) M q ( z i ) ≤ 1 \alpha=\frac{p(z^i)}{Mq(z^i)}\le1 α=Mq(zi)p(zi)1。算法描述为:

    1. z i ∼ q ( z ) z^i\sim q(z) ziq(z)
    2. 在均匀分布中选取 u u u
    3. 如果 u ≤ α u\le\alpha uα,则接受 z i z^i zi,否则,拒绝这个值。
  3. Importance Sampling:直接对期望: E p ( z ) [ f ( z ) ] \mathbb{E}_{p(z)}[f(z)] Ep(z)[f(z)] 进行采样。
    E p ( z ) [ f ( z ) ] = ∫ p ( z ) f ( z ) d z = ∫ p ( z ) q ( z ) f ( z ) q ( z ) d z ≃ 1 N ∑ i = 1 N f ( z i ) p ( z i ) q ( z i ) \mathbb{E}_{p(z)}[f(z)]=\int p(z)f(z)dz=\int \frac{p(z)}{q(z)}f(z)q(z)dz\simeq\frac{1}{N}\sum\limits_{i=1}^Nf(z_i)\frac{p(z_i)}{q(z_i)} Ep(z)[f(z)]=p(z)f(z)dz=q(z)p(z)f(z)q(z)dzN1i=1Nf(zi)q(zi)p(zi)
    于是采样在   q ( z )  q(z)  q(z) 中采样,并通过权重计算和。重要值采样对于权重非常小的时候,效率非常低。重要性采样有一个变种 Sampling-Importance-Resampling,这种方法,首先和上面一样进行采样,然后在采样出来的 N N N 个样本中,重新采样,这个重新采样,使用每个样本点的权重作为概率分布进行采样。

MCMC

马尔可夫链式一种时间状态都是离散的随机变量序列。我们关注的主要是齐次的一阶马尔可夫链。马尔可夫链满足: p ( X t + 1 ∣ X 1 , X 2 , ⋯   , X t ) = p ( X t + 1 ∣ X t ) p(X_{t+1}|X_1,X_2,\cdots,X_t)=p(X_{t+1}|X_t) p(Xt+1X1,X2,,Xt)=p(Xt+1Xt)。这个式子可以写成转移矩阵的形式 p i j = p ( X t + 1 = j ∣ X t = i ) p_{ij}=p(X_{t+1}=j|X_t=i) pij=p(Xt+1=jXt=i)。我们有:
π t + 1 ( x ∗ ) = ∫ π i ( x ) p x → x ∗ d x \pi_{t+1}(x^*)=\int\pi_i(x)p_{x\to x^*}dx πt+1(x)=πi(x)pxxdx
如果存在 π = ( π ( 1 ) , π ( 2 ) , ⋯   ) , ∑ i = 1 + ∞ π ( i ) = 1 \pi=(\pi(1),\pi(2),\cdots),\sum\limits_{i=1}^{+\infin}\pi(i)=1 π=(π(1),π(2),),i=1+π(i)=1,有上式成立,这个序列就叫马尔可夫链 X t X_t Xt 的平稳分布,平稳分布就是表示在某一个时刻后,分布不再改变。MCMC 就是通过构建马尔可夫链概率序列,使其收敛到平稳分布 p ( z ) p(z) p(z)。引入细致平衡: π ( x ) p x → x ∗ = π ( x ∗ ) p x ∗ → x \pi(x)p_{x\to x^*}=\pi(x^*)p_{x^*\to x} π(x)pxx=π(x)pxx。如果一个分布满足细致平衡,那么一定满足平稳分布(反之不成立):
∫ π ( x ) p x → x ∗ d x = ∫ π ( x ∗ ) p x ∗ → x d x = π ( x ∗ ) \int\pi(x)p_{x\to x^*}dx=\int\pi(x^*)p_{x^*\to x}dx=\pi(x^*) π(x)pxxdx=π(x)pxxdx=π(x)
细致平衡条件将平稳分布的序列和马尔可夫链的转移矩阵联系在一起了,通过转移矩阵可以不断生成样本点。假定随机取一个转移矩阵 ( Q = Q i j ) (Q=Q_{ij}) (Q=Qij),作为一个提议矩阵。我们有:
p ( z ) ⋅ Q z → z ∗ α ( z , z ∗ ) = p ( z ∗ ) ⋅ Q z ∗ → z α ( z ∗ , z ) p(z)\cdot Q_{z\to z^*}\alpha(z,z^*)=p(z^*)\cdot Q_{z^*\to z}\alpha(z^*,z) p(z)Qzzα(z,z)=p(z)Qzzα(z,z)
取 :
α ( z , z ∗ ) = min ⁡ { 1 , p ( z ∗ ) Q z ∗ → z p ( z ) Q z → z ∗ } \alpha(z,z^*)=\min\{1,\frac{p(z^*)Q_{z^*\to z}}{p(z)Q_{z\to z^*}}\} α(z,z)=min{1,p(z)Qzzp(z)Qzz}

p ( z ) ⋅ Q z → z ∗ α ( z , z ∗ ) = min ⁡ { p ( z ) Q z → z ∗ , p ( z ∗ ) Q z ∗ → z } = p ( z ∗ ) ⋅ Q z ∗ → z α ( z ∗ , z ) p(z)\cdot Q_{z\to z^*}\alpha(z,z^*)=\min\{p(z)Q_{z\to z^*},p(z^*)Q_{z^*\to z}\}=p(z^*)\cdot Q_{z^*\to z}\alpha(z^*,z) p(z)Qzzα(z,z)=min{p(z)Qzz,p(z)Qzz}=p(z)Qzzα(z,z)
于是,迭代就得到了序列,这个算法叫做 Metropolis-Hastings 算法:

  1. 通过在0,1之间均匀分布取点 u u u
  2. 生成 z ∗ ∼ Q ( z ∗ ∣ z i − 1 ) z^*\sim Q(z^*|z^{i-1}) zQ(zzi1)
  3. 计算 α \alpha α
  4. 如果 α ≥ u \alpha\ge u αu,则 z i = z ∗ z^i=z^* zi=z,否则 z i = z i − 1 z^{i}=z^{i-1} zi=zi1

这样取的样本就服从 p ( z ) = p ^ ( z ) z p ∼ p ^ ( z ) p(z)=\frac{\hat{p}(z)}{z_p}\sim \hat{p}(z) p(z)=zpp^(z)p^(z)

下面介绍另一种采样方式 Gibbs 采样,如果 z z z 的维度非常高,那么通过固定被采样的维度其余的维度来简化采样过程: z i ∼ p ( z i ∣ z − i ) z_i\sim p(z_i|z_{-i}) zip(zizi)

  1. 给定初始值 z 1 0 , z 2 0 , ⋯ z_1^0,z_2^0,\cdots z10,z20,
  2. t + 1 t+1 t+1 时刻,采样 z i t + 1 ∼ p ( z i ∣ z − i ) z_i^{t+1}\sim p(z_i|z_{-i}) zit+1p(zizi),从第一个维度一个个采样。

Gibbs 采样方法是一种特殊的 MH 采样,可以计算 Gibbs 采样的接受率:
p ( z ∗ ) Q z ∗ → z p ( z ) Q z → z ∗ = p ( z i ∗ ∣ z − i ∗ ) p ( z − i ∗ ) p ( z i ∣ z − i ∗ ) p ( z i ∣ z − i ) p ( z − i ) p ( z i ∗ ∣ z − i ) \frac{p(z^*)Q_{z^*\to z}}{p(z)Q_{z\to z^*}}=\frac{p(z_i^*|z^*_{-i})p(z^*_{-i})p(z_i|z_{-i}^*)}{p(z_i|z_{-i})p(z_{-i})p(z_i^*|z_{-i})} p(z)Qzzp(z)Qzz=p(zizi)p(zi)p(zizi)p(zizi)p(zi)p(zizi)
对于每个 Gibbs 采样步骤, z − i = z − i ∗ z_{-i}=z_{-i}^* zi=zi,这是由于每个维度 i i i 采样的时候,其余的参量保持不变。所以上式为1。于是 Gibbs 采样过程中,相当于找到了一个步骤,使得所有的接受率为 1。

平稳分布

定义随机矩阵:
Q = ( Q 11 Q 12 ⋯ Q 1 K ⋮ ⋮ ⋮ ⋮ Q k 1 Q k 2 ⋯ Q K K ) Q=\begin{pmatrix}Q_{11}&Q_{12}&\cdots&Q_{1K}\\\vdots&\vdots&\vdots&\vdots\\Q_{k1}&Q_{k2}&\cdots&Q_{KK}\end{pmatrix} Q=Q11Qk1Q12Qk2Q1KQKK
这个矩阵每一行或者每一列的和都是1。随机矩阵的特征值都小于等于1。假设只有一个特征值为 λ i = 1 \lambda_i=1 λi=1。于是在马尔可夫过程中:
q t + 1 ( x = j ) = ∑ i = 1 K q t ( x = i ) Q i j ⇒ q t + 1 = q t ⋅ Q = q 1 Q t q^{t+1}(x=j)=\sum\limits_{i=1}^Kq^t(x=i)Q_{ij}\\ \Rightarrow q^{t+1}=q^t\cdot Q=q^1Q^t qt+1(x=j)=i=1Kqt(x=i)Qijqt+1=qtQ=q1Qt
于是有:
q t + 1 = q 1 A Λ t A − 1 q^{t+1}=q^1A\Lambda^t A^{-1} qt+1=q1AΛtA1
如果 m m m 足够大,那么, Λ m = d i a g ( 0 , 0 , ⋯   , 1 , ⋯   , 0 ) \Lambda^m=diag(0,0,\cdots,1,\cdots,0) Λm=diag(0,0,,1,,0),则: q m + 1 = q m q^{m+1}=q^{m} qm+1=qm ,则趋于平稳分布了。马尔可夫链可能具有平稳分布的性质,所以我们可以构建马尔可夫链使其平稳分布收敛于需要的概率分布(设计转移矩阵)。

在采样过程中,需要经历一定的时间(燃烧期/混合时间)才能达到平稳分布。但是 MCMC 方法有一些问题:

  1. 无法判断是否已经收敛
  2. 燃烧期过长(维度太高,并且维度之间有关,可能无法采样到某些维度),例如在 GMM 中,可能无法采样到某些峰。于是在一些模型中,需要对隐变量之间的关系作出约束,如 RBM 假设隐变量之间无关。
  3. 样本之间一定是有相关性的,如果每个时刻都取一个点,那么每个样本一定和前一个相关,这可以通过间隔一段时间采样。
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值