【机器学习】近似推断的基本概念以及变分贝叶斯的基本概念

Lossya

于 2024-09-11 15:00:49 发布

阅读量1.4k

点赞数 32

文章标签：机器学习人工智能 python 贝叶斯网络变分贝叶斯近似推断

本文链接：https://blog.csdn.net/m0_49243785/article/details/142096210

版权

引言

近似推断是处理大规模或复杂概率图模型时常用的一种方法，特别是在精确推断变得不可行或不实际的情况下

近似推断是处理大规模或复杂概率图模型时常用的一种方法，特别是在精确推断变得不可行或不实际的情况下。近似推断的目标是找到一个足够接近真实后验概率分布的近似分布，从而使得计算更加高效

采样方法通过从概率分布中抽取样本来进行推断。这些方法通常易于实现，并且可以应用于各种类型的概率模型

MCMC是一种基于马尔可夫链的采样方法，它通过构建一个马尔可夫链，使其稳态分布为目标概率分布，从而可以从链中抽取样本

重要性采样是一种利用已知分布来估计未知分布的方法。它通过从重要性分布中抽取样本，并调整样本权重来近似目标分布

蒙特卡洛模拟是一种基于重复随机抽样的方法，用于计算难以直接求解的数学问题的数值解

变分推断是一种优化方法，它通过寻找一个简单的分布（通常是指数族分布），使得该分布与目标分布之间的差异最小

平均场近似是变分推断中的一种方法，它假设所有变量都是独立的，从而简化了目标分布的计算

CAVI是一种迭代算法，通过交替优化变分参数来逼近目标分布

混合方法结合了采样和变分推断的优点，旨在提高推断的准确性和效率

变分MCMC结合了变分推断和MCMC，用于处理难以直接采样的复杂模型

近似误差：近似推断的结果不是精确的，可能存在误差
收敛性：某些方法（如MCMC）可能需要很长时间才能收敛
实现复杂度：某些近似方法（如变分推断）的实现可能相对复杂
近似推断是机器学习和统计推断中非常重要的工具，尤其是在处理实际应用中的问题时，它们提供了一种在准确性和计算效率之间进行权衡的有效手段。

变分贝叶斯推断（Variational Bayesian Inference，简称VB或VB inference）是一种用于概率模型的近似推断方法，它通过优化一组参数来近似真实后验概率分布。这种方法特别适用于包含隐变量或参数不确定性较大的复杂模型
在这里插入图片描述

变分贝叶斯推断的目标是最小化变分分布 $q(\theta, Z)$ 和真实后验分布 $p(\theta, Z | X)$ 之间的差异。这种差异通常通过Kullback-Leibler散度（KL散度）来衡量。

定义变分分布：
选择一个易于处理的变分分布族 $q(\theta, Z; \lambda)$ ，其中 $\lambda$ 是变分参数
最大化证据下界（Evidence Lower Bound, ELBO）：
ELBO是证据（边际似然）的下界，可以写为：
$\mathcal{L}(\lambda) = \int q(\theta, Z; \lambda) \log \frac{p(X, \theta, Z)}{q(\theta, Z; \lambda)} d\theta dZ$
通过最大化ELBO，我们可以间接地最小化KL散度
优化变分参数：
使用优化算法（如梯度上升或坐标上升）来调整变分参数 $\lambda$ ，直到ELBO收敛
推断结果：
一旦变分分布 $q(\theta, Z; \lambda)$ 被确定，就可以用它来近似后验分布，进行预测和决策

平均场近似（Mean Field Approximation）：
假设变分分布可以分解为各个变量的乘积形式，即 $q(\theta, Z) = q(\theta) \prod_i q(Z_i)$ 。这种方法简化了计算，但可能牺牲了精确性
坐标上升法（Coordinate Ascent Variational Inference, CAVI）：
通过交替更新变分参数来最大化ELBO，每次只优化一个变量或参数的变分分布