作者:CHEONG
公众号:AI机器学习与知识图谱
研究方向:自然语言处理与知识图谱
阅读本文之前,首先注意以下两点:
1. 机器学习系列文章常含有大量公式推导证明,为了更好理解,文章在最开始会给出本文的重要结论,方便最快速度理解本文核心。需要进一步了解推导细节可继续往后看。
2. 文中含有大量公式,若读者需要获取含公式原稿Word文档,可关注公众号【AI机器学习与知识图谱】后回复:MCMC第二讲,可添加微信号【17865190919】进学习交流群,加好友时备注来自CSDN。原创不易,转载请告知并注明出处!
本文将先从基本的概念入手,循序渐进阐述MCMC采样思想。
- 马尔科夫链
- 齐次马尔科夫连
- 平稳分布
- Detailed Balance
- 为何引出MCMC
- MCMC核心思想
一、马尔科夫链
马尔科夫链是时间和状态都是离散的马氏过程/随机过程,其中随机过程是指研究变量是随机变量序列 x 1 , x 2 , . . . , x n , . . . {x_1,x_2,...,x_n,...} x1,x2,...,xn,...,而不是单个随机变量 x x x。马氏链的概率图模型表示如下:
简单解释一下上图中需要用到的两个概念:(1)转移矩阵: P = [ p i j ] P=[p_{ij}] P=[pij],其中 p i j p_{ij} pij表示从状态 x i x_i xi到状态 x j x_j xj的转移概率;(2)状态概率:每个状态 x i x_i xi都有状态概率 π i \pi_i πi。
二、齐次马尔科夫链
齐次马尔科夫链是指t+1时刻状态 x t + 1 x_{t+1} xt+1只和t时刻状态 x t x_t xt有关,公式表示如下:
三、平稳分布
如果状态概率序列 π 1 , π 2 , . . . , π n , . . . {\pi_1,\pi_2,...,\pi_n,...} π1,π2,...,πn,...是 x 1 , x 2 , . . . , x n , . . . {x_1,x_2,...,x_n,...} x1,x2,...,xn,...的平稳分布,则满足以下条件:
其中:
简单来说,对于平稳分布,平稳分布是指马氏链中状态概率 π ( x ) \pi(x) π(x)经过任意的转移 p ( x − > x ∗ ) p(x->x_*) p(x−>x∗)都等于同一个值 π ( x ∗ ) \pi(x_*) π(x∗)
四、Detailed Balance
Detailed Balance是平稳分布的充分不必要条件,即马氏链满足Detailed Balance一定满足平稳分布,但满足平稳分布不一定满足Detailed Balance。马氏链是Detailed Balance时满足以下公式:
已知Detailed Balance来推导平稳分布,下面给出简单的推导过程:
其中
所以有Detailed Balance推导出平稳分布,即:
五、为何引出MCMC
对于拒绝采样和重要性,因为原有的概率分布 p ( x ) p(x) p(x)维度高很复杂无法直接采样,所以采取的策略是:先假设一个概率分布 q ( x ) q(x) q(x)与 p ( x ) p(x) p(x)接近,并且 q ( x ) q(x) q(x)简单易采样,这样便可以通过对概率分布 q ( x ) q(x) q(x)采样来替代无法采样的 p ( x ) p(x) p(x)。但显然存在一个问题,寻找到一个和高维复杂的 p ( x ) p(x) p(x)接近且简单易采样的概率分布 q ( x ) q(x) q(x)是困难的,不太现实的。这让拒绝采样和重要性采样变得不易操作。因此才引出了MCMC的采样方案。
六、MCMC核心思想
在介绍MCMC采样的核心思想之前,我们先看上图中的马氏链:
每个状态对应的概率分布分别是:
通过状态转移矩阵从 q ( 1 ) ( x ) q^{(1)}(x) q(1)(x)转移到 q ( 2 ) ( x ) q^{(2)}(x) q(2)(x),这样一直转移到 q ( m ) ( x ) q^{(m)}(x) q(m)(x), q ( m + 1 ) ( x ) q^{(m+1)}(x) q(m+1)(x),假设该马氏链随着转态转移到状态 x m x_m xm之后就已经达到了平稳分布,即 q ( m ) ( x ) q^{(m)}(x) q(m)(x)和 q ( m + 1 ) ( x ) q^{(m+1)}(x) q(m+1)(x)的概率分布已经保持一致。这里我们引出MCMC采样的想法:
传统拒绝采样和重要性采样想直接给出高维复杂概率分布 p ( x ) p(x) p(x)相近的 q ( x ) q(x) q(x)是十分复杂的;
MCMC就试图间接找到这样的 q ( x ) q(x) q(x),即先构造一条马氏链,通过假设合适的转态转移矩阵,让马氏链最后进入平稳分布状态概率分布 q ( m ) ( x ) q^{(m)}(x) q(m)(x),且 q ( m ) ( x ) q^{(m)}(x) q(m)(x)和 p ( x ) p(x) p(x)相近,这样通过对 q ( m ) ( x ) q^{(m)}(x) q(m)(x)进行采样来代替高维复杂概率分布 p ( x ) p(x) p(x),这就是MCMC采样的思想,所以关键在于如何构造合适的状态转移矩阵,让马氏链最终能够平稳分布并接近 p ( x ) p(x) p(x)。
因此从MCMC采样想法中需要说明两个关键点,在下一节MCMC第三讲中将对以下两个关键点详细证明:
1、马氏链是否可以趋近于平稳分布状态,概率分布 q ( m ) ( x ) q^{(m)}(x) q(m)(x);
2、如何设置转态转移矩阵使得平稳分布状态下的概率分布 q ( m ) ( x ) q^{(m)}(x) q(m)(x)接近 p ( x ) p(x) p(x)