Variational inference:变分推断

蓝蓝柚子

已于 2024-05-21 22:10:49 修改

阅读量700

点赞数 12

文章标签：机器学习深度学习

于 2024-05-21 22:09:58 首次发布

本文链接：https://blog.csdn.net/m0_64054405/article/details/139022258

版权

前言：初学小白边学边写，如有不准确还请各位指出。

一、背景

在本章中，我们将讨论变分推断，它将后验推断简化为优化问题。请注意，变分推断是一个庞大的主题，本章只是给出了一个高层次的概述。

为什么说变分推断将后验推断简化为优化问题呢？

（一）优化：

当从统计学角度的频率角度来解释和理解机器学习的方法论时，机器学习的目标是通过对样本的频率分布进行建模，从中推断出模型参数的最优估计。在频率角度中，模型参数的最佳值是通过最小化损失函数Loss Function来寻找的，此时机器学习问题被视为一个优化问题，在不断优化中寻找最佳参数。例如回归问题：

模型： $f\left ( w \right )= w^{T}x$ ，参数为w，目标求最佳w

策略：loss function：L(w) = $\sum_{i=1}^{n}\left \| w^{T} x_{i}-y_{i}\right \|^{2}$ , $\hat{w}$ = argminL(w)

通过不断优化损失函数的方法来求最佳w

解法：如梯度下降算法等。

（二）后验推断：

与频率角度相对的是贝叶斯角度。在贝叶斯角度下，机器学习算法的目标是通过将先验知识与观测数据相结合，推断出模型的后验分布。贝叶斯角度强调了不确定性的存在，并将概率作为描述模型参数和预测结果的基本工具。

贝叶斯定理： $p(\theta |x)=\frac{p( x|\theta)p(\theta)}{p(x)}$ ， $\theta$ 为模型的参数，x为原始训练数据

先验：p(w)，即对参数的原有认知

似然：p(x| $\theta$ )，不同参数下的x的分布

后验：p( $\theta$ |x)。p(x)是固定值，不受模型参数的影响，后验即为原有认知p( $\theta$ )在通过学习一些数据p(x| $\theta$ )后，重新对 $\theta$ 的认识。通过后验分布，我们可以获得关于参数的不确定性信息。

在贝叶斯角度中，机器学习问题被视为一个推断问题，通过观测数据来更新模型参数的概率分布。 贝叶斯具有推断与决策两个任务：

贝叶斯推断（Inference）：求后验分布。

贝叶斯决策（decision）：根据已有的n各样本X，以及新的样本 $\hat{x}$ ，求

p( $\hat{x}$ |x)= $\int_{\theta }^{}p\left ( \hat{x} ,\theta |x\right )d\theta = \int_{\theta }^{}p\left ( \hat{x} | \theta\right )p(\theta |x)d\theta = E_{\theta |x}[p(\hat{x}|\theta )]$

决策问题转换为求后验的期望，所以在贝叶斯框架中，关键是求后验，即进行贝叶斯推断。

求法：精确推断、近似推断（确定性近似、随机近似）

变分推断（ Variational inference ）即为一种确定性近似的方法，它可以将后验推断简化为优化问题。即想办法找到一个分布q(z)去逼近我们没有办法计算得到解析解的后验分布。

二、公式推导

(一) 变量含义：

X：观测数据(observed data)，即直接观察或收集到的数据。

Z：隐变量和参数(latent variable + parameter)，隐变量为不可观察的变量，起关键作用的未知变量，参数是模型中需要学习或估计的固定值，二者合称为Z。

（X，Z）：完全数据(complete data)，X和Z的联合，提供数据生成过程的完整信息。

(二) 推导过程：

$logP(X)=logP(X,Z)-logP(Z|X)=log\frac{P(X,Z)}{q(Z)}-log\frac{logP(Z|X)}{q(Z)}$

对上式等号两边分别对 q(Z) 求期望：

左边： $E(logP(X))=\int_{Z}^{}logP(X)q(Z)dZ=logP(X)$

右边第一项： $E(log\frac{P(X,Z)}{q(Z)})=\int_{Z}^{}q(Z)\cdot log\frac{P(X,Z)}{q(Z)}dZ= \pounds (q)$

右边第二项： $E(log\frac{logP(Z|X)}{q(Z)})=\int_{Z}^{}q(Z)log\frac{logP(Z|X)}{q(Z)}dZ=KL(q||p)$

即： $logP(X)=\pounds (q)+KL(q||p)$

右边第一项被称为ELBO(Evidence Lower Bound)对数证据下界，右边第二项是真实后验分布(真实且未知)与近似后验分布之间的KL散度(Kullback-Leibler divergence)，它们通常用于评估变分推断方法的近似质量。

上文已说，求解后验分布通常是非常困难的，所以我们采用变分推断的近似推断来近似后验分布，使 $\tilde{q(Z)}\approx p(Z|X)$ 。其中一个关键问题是如何衡量近似后验分布的质量。ELBO就提供了一个衡量近似后验分布质量的指标。它是真实后验分布(真实且未知)与近似后验分布之间的KL散度(Kullback-Leibler divergence)的下界。KL越小，q(Z)与p(Z|X)就越接近，ELBO越大，近似后验分布的质量越高，与真实后验分布的差距就越小。