【机器学习系列】MCMC第二讲:Markov Chain & Monte Carlo基本概念和核心思想


作者:CHEONG

公众号:AI机器学习与知识图谱

研究方向:自然语言处理与知识图谱

阅读本文之前,首先注意以下两点:

1. 机器学习系列文章常含有大量公式推导证明,为了更好理解,文章在最开始会给出本文的重要结论,方便最快速度理解本文核心。需要进一步了解推导细节可继续往后看。

2. 文中含有大量公式,若读者需要获取含公式原稿Word文档,可关注公众号【AI机器学习与知识图谱】后回复:MCMC第二讲,可添加微信号【17865190919】进学习交流群,加好友时备注来自CSDN。原创不易,转载请告知并注明出处!

本文将先从基本的概念入手,循序渐进阐述MCMC采样思想。

  • 马尔科夫链
  • 齐次马尔科夫连
  • 平稳分布
  • Detailed Balance
  • 为何引出MCMC
  • MCMC核心思想

一、马尔科夫链

马尔科夫链是时间和状态都是离散的马氏过程/随机过程,其中随机过程是指研究变量是随机变量序列 x 1 , x 2 , . . . , x n , . . . {x_1,x_2,...,x_n,...} x1,x2,...,xn,...,而不是单个随机变量 x x x。马氏链的概率图模型表示如下:

在这里插入图片描述

简单解释一下上图中需要用到的两个概念:(1)转移矩阵: P = [ p i j ] P=[p_{ij}] P=[pij],其中 p i j p_{ij} pij表示从状态 x i x_i xi到状态 x j x_j xj的转移概率;(2)状态概率:每个状态 x i x_i xi都有状态概率 π i \pi_i πi


二、齐次马尔科夫链

齐次马尔科夫链是指t+1时刻状态 x t + 1 x_{t+1} xt+1只和t时刻状态 x t x_t xt有关,公式表示如下:

在这里插入图片描述


三、平稳分布

如果状态概率序列 π 1 , π 2 , . . . , π n , . . . {\pi_1,\pi_2,...,\pi_n,...} π1,π2,...,πn,... x 1 , x 2 , . . . , x n , . . . {x_1,x_2,...,x_n,...} x1,x2,...,xn,...的平稳分布,则满足以下条件:

在这里插入图片描述

其中:

在这里插入图片描述

简单来说,对于平稳分布,平稳分布是指马氏链中状态概率 π ( x ) \pi(x) π(x)经过任意的转移 p ( x − > x ∗ ) p(x->x_*) p(x>x)都等于同一个值 π ( x ∗ ) \pi(x_*) π(x)


四、Detailed Balance

Detailed Balance是平稳分布的充分不必要条件,即马氏链满足Detailed Balance一定满足平稳分布,但满足平稳分布不一定满足Detailed Balance。马氏链是Detailed Balance时满足以下公式:

在这里插入图片描述

已知Detailed Balance来推导平稳分布,下面给出简单的推导过程:

在这里插入图片描述

其中

在这里插入图片描述

所以有Detailed Balance推导出平稳分布,即:

在这里插入图片描述


五、为何引出MCMC

对于拒绝采样和重要性,因为原有的概率分布 p ( x ) p(x) p(x)维度高很复杂无法直接采样,所以采取的策略是:先假设一个概率分布 q ( x ) q(x) q(x) p ( x ) p(x) p(x)接近,并且 q ( x ) q(x) q(x)简单易采样,这样便可以通过对概率分布 q ( x ) q(x) q(x)采样来替代无法采样的 p ( x ) p(x) p(x)。但显然存在一个问题,寻找到一个和高维复杂的 p ( x ) p(x) p(x)接近且简单易采样的概率分布 q ( x ) q(x) q(x)是困难的,不太现实的。这让拒绝采样和重要性采样变得不易操作。因此才引出了MCMC的采样方案。


六、MCMC核心思想

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-KMDpVhMb-1617968669211)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image048.jpg)]

在介绍MCMC采样的核心思想之前,我们先看上图中的马氏链:

在这里插入图片描述

每个状态对应的概率分布分别是:

在这里插入图片描述

通过状态转移矩阵从 q ( 1 ) ( x ) q^{(1)}(x) q(1)(x)转移到 q ( 2 ) ( x ) q^{(2)}(x) q(2)(x),这样一直转移到 q ( m ) ( x ) q^{(m)}(x) q(m)(x) q ( m + 1 ) ( x ) q^{(m+1)}(x) q(m+1)(x),假设该马氏链随着转态转移到状态 x m x_m xm之后就已经达到了平稳分布,即 q ( m ) ( x ) q^{(m)}(x) q(m)(x) q ( m + 1 ) ( x ) q^{(m+1)}(x) q(m+1)(x)的概率分布已经保持一致。这里我们引出MCMC采样的想法:

传统拒绝采样和重要性采样想直接给出高维复杂概率分布 p ( x ) p(x) p(x)相近的 q ( x ) q(x) q(x)是十分复杂的;

MCMC就试图间接找到这样的 q ( x ) q(x) q(x),即先构造一条马氏链,通过假设合适的转态转移矩阵,让马氏链最后进入平稳分布状态概率分布 q ( m ) ( x ) q^{(m)}(x) q(m)(x),且 q ( m ) ( x ) q^{(m)}(x) q(m)(x) p ( x ) p(x) p(x)相近,这样通过对 q ( m ) ( x ) q^{(m)}(x) q(m)(x)进行采样来代替高维复杂概率分布 p ( x ) p(x) p(x),这就是MCMC采样的思想,所以关键在于如何构造合适的状态转移矩阵,让马氏链最终能够平稳分布并接近 p ( x ) p(x) p(x)


因此从MCMC采样想法中需要说明两个关键点,在下一节MCMC第三讲中将对以下两个关键点详细证明:

1、马氏链是否可以趋近于平稳分布状态,概率分布 q ( m ) ( x ) q^{(m)}(x) q(m)(x)

2、如何设置转态转移矩阵使得平稳分布状态下的概率分布 q ( m ) ( x ) q^{(m)}(x) q(m)(x)接近 p ( x ) p(x) p(x)

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值