【机器学习系列】MCMC第三讲:理解MCMC前必先弄懂这两点


作者:CHEONG

公众号:AI机器学习与知识图谱

研究方向:自然语言处理与知识图谱

阅读本文之前,首先注意以下两点:

1. 机器学习系列文章常含有大量公式推导证明,为了更好理解,文章在最开始会给出本文的重要结论,方便最快速度理解本文核心。需要进一步了解推导细节可继续往后看。

2. 文中含有大量公式,若读者需要获取含公式原稿Word文档,可关注公众号【AI机器学习与知识图谱】后回复:MCMC第三讲,可添加微信号【17865190919】进学习交流群,加好友时备注来自CSDN。原创不易,转载请告知并注明出处!

本文先给出MCMC采样的核心思想,然后介绍MCMC采样策略成立的两个重要关键点。MCMC相关概念请看:


一、MCMC核心思想

传统拒绝采样和重要性采样想直接给出高维复杂概率分布 p ( x ) p(x) p(x)相近的 q ( x ) q(x) q(x)是十分复杂的;

MCMC就试图间接找到这样的 q ( x ) q(x) q(x),即先构造一条马氏链,通过假设合适的转态转移矩阵,让马氏链最后进入平稳分布状态概率分布 q m ( x ) q^{m}(x) qm(x),且 q m ( x ) q^{m}(x) qm(x) p ( x ) p(x) p(x)相近,这样通过对 q m ( x ) q^{m}(x) qm(x)进行采样来代替高维复杂概率分布 p ( x ) p(x) p(x),这就是MCMC采样的思想,所以关键在于如何构造合适的状态转移矩阵,让马氏链最终能够平稳分布并接近 p ( x ) p(x) p(x)

在这里插入图片描述

因此从MCMC采样想法中需要说明两个关键点:

1、马氏链是否可以趋近于平稳分布状态,概率分布 q m ( x ) q^{m}(x) qm(x)

2、如何设置转态转移矩阵使得平稳分布状态下的概率分布 q m ( x ) q^{m}(x) qm(x)接近 p ( x ) p(x) p(x)


证明1:马氏链随着转移矩阵转变,当 m − > ∞ m->\infty m>时会趋向于平稳分布状态。

如上存在的马氏链,假设每个时刻的概率分布 q ( t + 1 ) ( x ) q^{(t+1)}(x) q(t+1)(x)共有K个状态:

在这里插入图片描述

则可以令 q ( t + 1 ) ( x ) q^{(t+1)}(x) q(t+1)(x)是一个 1 ∗ K 1*K 1K维的向量:

在这里插入图片描述

则状态转移矩阵,也称为随机矩阵为:

在这里插入图片描述

若马氏链的状态从t时刻的 x i x_i xi到t+1时刻的 x j x_j xj,则可以写出:

在这里插入图片描述

将上式带入到 q ( t + 1 ) ( x ) q^{(t+1)}(x) q(t+1)(x)向量表示中展开为:

在这里插入图片描述

因此有:

在这里插入图片描述

所以继续迭代推导有:

在这里插入图片描述

随机矩阵 Q Q Q具有一个性质,即特征值的绝对值都小于等于1,则对随机矩阵 Q Q Q进行分解为:

在这里插入图片描述

其中:

在这里插入图片描述

因此特征值绝对值都小于等于1,不妨假设只有一个特征值为1,其他都小于1,则有:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-G63MRz3y-1618287345185)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image044.png)]

因此存在足够大的 m m m,则有:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-wcfysld0-1618287345187)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image048.png)]

即对角线上只有一个为1,其他对于小于1的足够大的指数运算后都趋近于0,所以

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IOeXxQPq-1618287345199)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image052.png)]

因此有:

在这里插入图片描述

至此得出结论,当m足够大时,马氏链趋向于平稳分布。


证明2、如何设置转态转移矩阵Q使得平稳分布状态下的概率分布 q m ( x ) q^{m}(x) qm(x)接近 p ( x ) p(x) p(x)

MCMC如何利用马尔科夫链收敛于平稳分布,来设计转态转移矩阵Q,使得平稳分布 q m ( x ) q^{m}(x) qm(x)约等于目标分布 p ( x ) p(x) p(x),马尔科夫链收敛到的平稳分布 q m ( x ) q^{m}(x) qm(x)和初始分布没有关系,只和状态转移矩阵Q有关。具体怎么设置转态转移矩阵Q,参见MH采样算法和Gibbs采样算法,在下一节中将详细介绍具体的采样策略。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值