蒙特卡洛采样_生信小课堂 | MCMC(三):MCMC采样方法

b7333535fe603dbd42a17c7c82fa6bd7.gif

上期我们介绍了蒙特卡洛模拟(Monte Carlo sampling)和马尔科夫链(Markov Chain)。基于马尔科夫链对复杂高维概率分布进行采样,即给定初始概率分布及其对应的状态转移矩阵,通过很多次抽样使得马尔科夫链收敛到平稳分布(Equilibrium distribution),状态概率和转移概率收敛,这时我们便通过采样得到了用以描述采样事件分布的参数。那如何找到平稳分布对应的状态转移矩阵呢?这就需要马尔科夫链蒙特卡洛模拟(MCMC)算法采样。本期我们将对MCMC算法模型进行简单介绍。

要基于MCMC方法找到马尔科夫链的平稳分布及其状态转移矩阵,首先需要了解马尔科夫链的性质:细致平稳条件(detailed balance condition)。给定事件概率分布π(x),马尔科夫链状态转移矩阵P,对于所有的x, y满足:

a98f3887e76a01448b1367f4330aa3ff.png

则称π(x)是状态转移矩阵P的平稳分布。即两状态各自的状态概率与转移到对方状态的转移概率相乘相等。基于马尔科夫链的细致平稳条件,只要找到可以使得概率分布π(x)满足细致平稳条件的矩阵P即可。

给定目标分布π(x)和随机选定的状态转移矩阵P,如何求得满足条件的目标状态转移矩阵Q呢?在完全随机抽样情况下,π(x)和任意选定矩阵P很难满足细致平稳条件:

109fe64137758d0daf69d9169cb632c3.png

这时我们可以引入接受率(Acceptance rate)的概念。在我们更新概率矩阵的过程中,使得接受抽样并更新矩阵的概率同抽样得到的转移概率成正比。引入接受率α(x,y),可使其满足细致平稳条件。即:

6ac1ea19f736991373eda84e0aa330d9.png

由上式可以看出,目标矩阵Q可以通过任意状态转移矩阵P乘以接受率α得到。接受率α(x,y),取值范围[0,1]。也就是说,在状态y,依赖于随机选定状态转移矩阵P转移到状态x 时,以一定的接受率α(x,y)接受状态转移。

aaef67993292b9616c125c64c73c3f02.png 0d8dbe954270c8c9a346a8bf54d08d15.png

上述过程即MCMC采样的基本原理,但这个采样过程很难在实际采样过程中得到应用。因其接受率往往很小,导致大部分采样值都被拒绝,采样效率极低。所以,Metropolis-Hastings(M-H)采样和Gibbs采样,解决MCMC采样过程接受率低的问题。 

Metropolis-Hastings(M-H) 采样

M-H采样即满足细致平稳条件的前提下,同时成比例扩大α(x,y),α(x,y),使其中一个值扩大到1,这样同比例扩大接受率,但确没有破坏细节平衡条件。进而提高了采样的接受率。如公式3,假设α(y,x)=1,那么接受率α(x,y):

146088ddd0b4fb3137c063d88cadb440.png

相较于MCMC采样方法,M-H算法通过提高接受率,使得采样效率提高。下图为基于M-H采样的分布与真实分布比较示例:

14f8ac76b8fd1ad2dc7a4425f2c20ed0.png

由此可见,低维数据内,采样分布与真实分布拟合度较高。但在高维数据内,由于接受率的存在,有部分采样样本还是会被拒绝。那么,能否改进算法使α=1,从而使采得的样本达到100%的接受。这就需要Gibbs采样,Gibbs采样仅对高维数据情况有效。

Gibbs采样

Gibbs采样模型优势在于应用到高维数据,通过轮换n维坐标数据采集样本。对于高维数据,N维概率分布π(x1,x2,…xn),假设对xi维坐标上进行采样,基于条件概率固定N-1维坐标轴在xi坐标轴进行转移采样。Gibbs采样分别对N维坐标轮换采样,使得在每个坐标维度采样均满足细节平衡条件,保证每次采得样本均以100%概率接受。以N维数据为例进行简要介绍:

c53a785e071a719c656cc1e12fae3c42.png

鉴于前面关于贝叶斯模型、蒙特卡洛模拟、马尔科夫链及MCMC算法背景的介绍,下期将介绍MCMC算法在体细胞突变检测中的应用。

93ddd0edb2ea2496ff0856f6136b9132.gif

推荐阅读

1

生信小课堂第一期:概率分布与假设检验基础

2

 生信小课堂第二期:概率分布在NGS中的常见应用

3

 生信小课堂第三期:通俗理解贝叶斯统计

4

 生信小课堂第四‍‍期:MCMC(二):蒙特卡洛抽样与马尔科夫链

fd9d1ce459a201f8fa37624615dbcb3d.gif

c4802d82f6648e31ffa1681059053ff9.gif

泛生子(纳斯达克代码:GTH)是中国领先的癌症精准医疗公司,专注于癌症基因组学研究和应用,并致力依托先进的分子生物学及大数据分析能力改变癌症诊疗方式。泛生子已打造了全面的产品及服务管线,覆盖从癌症早筛到诊断及治疗建议,再到监测及预后管理的癌症全周期。

4000-996-336

www.genetronhealth.com

2bb583536583a56de676fd6cf4d0a3e7.png

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值