概率论于数理统计

最新推荐文章于 2024-11-03 19:49:28 发布

YH201467

最新推荐文章于 2024-11-03 19:49:28 发布

阅读量229

点赞数

文章标签：概率论

原文链接：https://cosx.org/2013/01/lda-math-mcmc-and-gibbs-sampling

版权

1、马尔可夫性质（Markov Property）：当一个随机过程在给定现在状态及所有过去状态情况下，其未来状态的条件概率分布仅依赖于当前状态，那么此随机过程即具有马尔可夫性质。具有马尔可夫性质的过程通常称之为马尔可夫过程（Markov process）。记录下所有时刻参数的变化，就构成了马尔科夫链（Markov Chain，MC）。现代统计学中，在求复杂贝叶斯积分时，用到马尔科夫链以及一些随机抽样的方法，获得参数的近似分布。马尔可夫链可被应用于蒙特卡罗方法中，形成马尔可夫链蒙特卡罗（Markov Chain Monte Carlo, MCMC）。
2、贝叶斯公式：表示参数集theta以及数据y关系的概率公式
p(theta|y) = {p(y|theta)*p(theta)}/p(y)
其中theta为参数集， y为数据：
p(y|theta) 为给定参数下，数据y出现的概率，也就是观测样本分布，即Likelihood，似然函数
p(theta) 为参数集theta的先验分布（先验概率），可假设为任何概率密度分布。
p(theta|y)为后验概率
p（y）则称为normalizing constant，一般并不关心其取值。
但是，要获得给定数据下的参数的分布却并不容易，p（y）是极难获取的值。幸运的是，在统计学家发明了一种基于随机抽样的方法，可以获得参数的近似分布，而不必考虑p（y）。这几种有两种最常用技术（Gibbs Sampling和Metrapolis Sampling），都是基于蒙特卡罗马尔科夫链。
参考：http://blog.sciencenet.cn/blog-255662-843026.html
或者贝叶斯公式写为：
参数θ连续分布 [外链图片转存失败,源站可能有防盗]!链机制,建(https://img-2Yblog.csdnimg.cn0210105175216651.ps://img-blog.csdni参数mg.cn/20210105175216651.png)]
参数θ离散分布

在这里插入图片描述

3、蒙特卡罗方法(Monte Carlo Simulation)
随机模拟 (或者统计模拟，或者随机算法) 方法有一个很酷的别名是蒙特卡罗方法。统计模拟中有一个重要的问题就是给定一个概率分布p(x)，我们如何在计算机中生成它的样本。一般而言均匀分布uniform（0，1）的样本是相对容易生成的，而我们常见的概率分布，无论是连续的还是离散的分布，都可以基于uniform（0，1）的样本生成，但是当概率分布p(x)的形式很复杂，或者 p(x)是个高维的分布的时候，样本的生成就可能很困难了。
在解决实际问题的时候应用蒙特卡罗方法主要有两部分工作：
①用蒙特卡罗方法模拟某一过程时，需要产生某一概率分布的随机变量（样本）。
②用统计方法把模型的数字特征估计出来，从而得到实际问题的数值解。
4、马尔可夫链及其平稳分布
马氏链的数学定义很简单：
在这里插入图片描述
P为转移矩阵，也就是状态转移的概率只依赖于前一个状态。
马氏链定理：
马氏链的收敛行为和初始概率分布 π0无关，主要是由概率转移矩阵P决定的

Markov Chain Monte Carlo

参考：https://cosx.org/2013/01/lda-math-mcmc-and-gibbs-sampling