deep|Bayes（3）

最新推荐文章于 2024-08-04 23:46:49 发布

panthera_1

最新推荐文章于 2024-08-04 23:46:49 发布

阅读量304

点赞数

分类专栏： LAMP 文章标签：变分推断采样法 MCMC

本文链接：https://blog.csdn.net/panthera_1/article/details/83088141

版权

LAMP 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

前面说EM算法的时候讲到EM算法可看做一种非梯度优化方法，旨在计算对数似然函数在隐变量后验概率下的期望。一方面，很多时候在计算时涉及形式非常复杂的积分或求和，往往无法直接得到解析解；另一方面要积分的变量空间可能有很高的维度，这样就使得精确付出的代价很高，因此在现实应用中，近似计算是个很好的选择。而近似计算有两大类：第一类是采样，通过使用随机方法完成近似，如MCMC采样；第二类则是使用确定性近似完成近似，如变分法。

推断

机器学习最重要的任务，根据一些已观察到的证据（训练样本）来对感兴趣的未知变量（例如类别标记）进行估计和推测。概率模型提供了一种描述框架，将学习任务归结于计算变量的概率分布，利用已知变量推测未知变量分布称为“推断” 未知变量集合?，已知变量集合?，其他变量集合?. 生成式模型考虑联合分布??,?,? ,判别式模型考虑?(?,?|?),推断就是??,?,?或者?(?,?|?)来得到条件概率分布?(?|?)

采样法

MCMC，称为马尔科夫链蒙特卡洛方法。

假定我们遇到这种形式，pz是它的分布，求f(z)的期望，则可以从p(z)中取出一组样本{ z_1,z_2,...,z_N },然后再取个平均

$\widehat{f}=\frac{1}{N}\sum_{i=1}^Nf(z_i)$ 来近似目标期望.若样本独立，基于大数定理则取出的期望具有较高的精度。

第二个MC是指蒙特卡洛方法，也叫蒙特卡洛抽样方法。基本思想是通过大量的抽样来近似得到想要的答案。圆周率

比如说，现在有 $E[f(\Theta )|x]=\int f(\Theta )p(\Theta |x)d\Theta$ 我们知道 $p(\Theta |x)$ ，其实想要知道 $f(\Theta )$ 的后验概率。这时候蒙特卡洛方法指出可以从

$p(\Theta |x)$ 中抽取大量的独立同分布的变量 $\Theta _i$ 于是可以 $f_m=1/m{\sum _{i=1} ^m h(\Theta_i)}$ 在大数定律下， f_m 可以看做是E的近似值。若这个方法在多维和后验分布形式未知的情况下，很难抽样出待估计参数的后验概率，于是就有了第一个MC

第一个MC马尔科夫链

定义：，解释从 Xn,Xn−1,…,X0到 Xn+1的转移概率只与 Xn+1的前一个状态 Xn有关。如果条件概率 $P(X_{n+1}| X_n)$ 与n无关，称为固定值，那么就成这个马氏链有平稳转移概率，记为 p_i_j ，并且我们称P=（ p_i_j ）为马氏链的转移矩阵。

马尔科夫链和贝叶斯的联系，p(i)就是先验分布，如果能够找到一个转移矩阵，那么就会在n步之后收敛到一个平稳分布，即为后验分布。得到平稳分布后，根据平稳性，乘上转移概率矩阵，平稳分布依然不变，所以就从得到平稳分布开始每次对其中一个抽样，经过m步后就能得到m个服从后验分布的样本，再使用蒙特卡洛方法进行计算。

变分法

变分法就是确定近似法的一种，它将微分的概念从变量推广到函数中，核心的思想是从某个函数空间中找到满足某些条件或约束的函数。实际上就是复杂的函数用形式简单的函数来近似，再做积分运算就比较简单。因此我们需要找一个衡量分布之间相似性或者差异性的度量，然后把问题转化为针对度量进行最优化，求得相似性最大差异性最小的分布。

KL散度

变分推断

概率模型

main idea 找到让它近似等于后验概率，但是怎么知道这两个分布的相似程度呢，引入KL散度，KL越小则两种分布越接近。因此需要构建一个标准函数使得它最小，因此就转化为一个优化问题。什么时候最小呢，KL=0.但是我们只清楚q的分布而不知道p的分布，没法确定KL的值，但是还能转化。

ELBO是证据下界，最小化KL，就是最大化L(q)，ELBO可以看作是一个关于q的函数。首先ELBO有上界，因此我们能够用最大化ELBO的方式，如何使得ELBO尽可能趋近上界呢，这时候就引入平均场理论。

平均场理论这个分布的各组变量 $\Theta _i$ 之间相互独立的，因此在计算积分时可以变成多个较低维度的积分。这种可分解形式的变分近似方法称为平均场方法。mean指的期望，field指的分布。对变量 $\Theta _i$ 分布 q_i 进行估计时，融合了除了 $\Theta _i$ 之外的其他 $\Theta _{i != j}$ 的信息，这是通过联合似然函数ln p(x, $\Theta$ )在 $\Theta _i$ 之外的变量分布求期望得到的。在实践中使用变分法，最重要的是考虑如何对隐变量进行拆解，以及假设个变量子集服从那种分布，再结合EM 算法即可得到概率图模型的推断和参数估计。