变分推断(variational inference)

1 篇文章 0 订阅

总体解释

把所有潜在变量和参数组成的集合记作 Z = { Z 1 , Z 2 , . . . , Z N } \mathbf Z=\{\mathbf Z_1,\mathbf Z_2,...,\mathbf Z_N\} Z={Z1,Z2,...,ZN}.观测变量的集合记作 X \mathbf X X.

一般来说条件分布(后验分布) p ( Z ∣ X ) = p ( Z , X ) / P ( X ) p(\mathbf Z|\mathbf X)=p(\mathbf Z, \mathbf X)/P( \mathbf X) p(ZX)=p(Z,X)/P(X)比较难求,因为边缘分布 P ( X ) P( \mathbf X) P(X)需要从联合分布 p ( Z , X ) p(\mathbf Z, \mathbf X) p(Z,X)进行积分,所以变分推断就是使用一个分布 q ( Z ) q(\mathbf Z) q(Z)来直接逼近这个条件分布,逼近的度量采用KL 散度, 即目标就是优化函数 q ( Z ) q(\mathbf Z) q(Z), 使得 K L ( q ( Z ) ∣ ∣ p ( Z ∣ X ) ) KL(q(\mathbf Z)||p(\mathbf Z|\mathbf X)) KL(q(Z)∣∣p(ZX))最小。一般正常情况下,优化变量是一个向量时,只要使用梯度(微分)为0,或者使用KTT等优化方法就可以得到最优或者是次优解。 当这里,因为优化的是一个函数,所以需要求所谓的变分,而不是微分。 进一步,为了求解空间小一些,使用平均场理论,假设联合分布 q ( Z ) q(\mathbf Z) q(Z)是通过每个独立分量的分布联合的,也就化成了连乘。(https://zhuanlan.zhihu.com/p/91640654)

ELOB 证据下界

想要使用变分推断,必须要得到ELOB的表达式,
有两种方法可以推出ELOB(https://xyang35.github.io/2017/04/14/variational-lower-bound/),

  1. 可以直接通过对KL散度的变形得到,这里要使用 q ( Z ) q(Z) q(Z)作为积分,因为proposed 的分布 q ( Z ) q(Z) q(Z)一般会简单,比如采用高斯或者伯努利,所以用 q ( Z ) q(Z) q(Z)来算期望会更容易。

在这里插入图片描述
由于 K L ≥ 0 KL\ge 0 KL0, 所以 L L L 就是 l o g p ( X ) logp(X) logp(X)的下界,也就是lower bound 的来源了。

  1. 可以使用Jensen’s inequality 进行推导
    从观测变量X的边缘分布出发,进行配凑
    在这里插入图片描述
    也可以得到ELOB energy functional L = E q [ log ⁡ p ( X , Z ) q ( Z ) ] L=E_q[\log\frac{p(X,Z)}{q(Z)}] L=Eq[logq(Z)p(X,Z)]

平均场推断

得到ELOB 的表达式L之后,后面就变成了变分优化问题,即 找个函数 q ( Z ) q(Z) q(Z), 使得L最大
m a x q L = m a x q E q [ log ⁡ p ( X , Z ) q ( Z ) ] max_q L=max_q E_q[\log\frac{p(X,Z)}{q(Z)}] maxqL=maxqEq[logq(Z)p(X,Z)]

如果不指定 q ( Z ) q(Z) q(Z)所在的分布家族(e.g.高斯分布), 直接搜索 q q q是很困难的,所以如果使用最简单的概率图模型,即没有边的概率图,in other words, Z = ( z 1 , . . . , z n ) Z=(z_1,...,z_n) Z=(z1,...,zn)都相互独立,但不要求同分布。
这就有了很多VAE 中的公式,上来就是
q ( Z ) = Π i q i ( z i ) q(Z)=\Pi_i q_i(z_i) q(Z)=Πiqi(zi)
将其代入到L中, 令 p ~ ( x ) = p ( X , Z ) \tilde p(x)=p(X,Z) p~(x)=p(X,Z)
在这里插入图片描述
在这里插入图片描述
最后得到每个分量解析表达式,j=1,2,…m=n
在这里插入图片描述

得到最后的分布
q ( Z ) = Π i q i ( z i ) q(Z)=\Pi_i q_i(z_i) q(Z)=Πiqi(zi)

前面的最大化问题会有最优解是由凸性保证。

最后推断的时候就用 q ( Z ) q(Z) q(Z) 来替代 p ( Z ∣ X ) p(Z|X) p(ZX)

---------------另一解释--------------------------------------------------------------

对观测值的边缘分布进行分解

在这里插入图片描述这里前一项 L ( q ) \mathcal L(q) L(q)为Evidence lower Bound(ELOB)。 第二项为KL散度。
下面的核心是对ELOB objective function 求上界。 当其越大,KL散度越小,代表拟合的越好,当KL=0 时,表示两个分布完全相等。
这与我们关于EM的讨论的唯一的区别是参数向量不再出现,因为参数现在是随机变量,被整合到了 Z \mathbf Z Z中.

分解概率分布(平均场理论)

为了容易得到迭代表达式,这里假设 联合分布可以分解为以下:
在这里插入图片描述其中 q i ( Z i ) q_i(\mathbf Z_i) qi(Zi)不要求相同分布, i = 1 , 2 , . . . , N i=1,2,..., N i=1,2,...,N. 变分推断的这个分解的形式对应于物理学中的一个近似框架,叫做平均场理论(mean field theory). 将上式代入到(10.3), q j ( Z j ) q_j(\mathbf Z_j) qj(Zj)记作 q j q_j qj.

在这里插入图片描述第二个等式,只考虑第 j j j个分量的显式形式, 第一部分 是将多重积分的 q j q_j qj提了出来,第二部分是将除了 j j j以外的元素都放在const 。
在这里插入图片描述在这里插入图片描述

Mean field 下的最优closed solution:

通过Evidence lower Bound(ELOB) 目标函数的最小化 来间接获得最优解的表达式 (https://xyang35.github.io/2017/04/14/variational-lower-bound/)
ln ⁡ q j ∗ ( Z j ) = E q 1 ( Z 1 ) , q 2 ( Z 2 ) , ⋯   , q N ( Z N ) / q j ( Z j ) [ ln p ( X , Z ) ] + c o n s t , = ∫ Z 1 , Z 2 , . . . , Z N / Z j ln p ( X , Z ) ∏ i ≠ j ( q i ( Z i ) d Z i ) , j = 1 , 2 , 3 , . . . , N \operatorname{ln}q^*_j(\mathbf Z_j)=\mathbb E_{q_1(\mathbf Z_1),q_2(\mathbf Z_2),\cdots,q_N(\mathbf Z_N)/q_j(\mathbf Z_j)}[\text{ln}p(\mathbf X, \mathbf Z)]+const,\\ =\int_{Z_1,Z_2,...,Z_N/Z_j}\text{ln}p(\mathbf {X,Z})\prod_{i\neq j}(q_i(\mathbf Z_i)d\mathbf Z_i), \quad j=1,2,3,... ,N lnqj(Zj)=Eq1(Z1),q2(Z2),,qN(ZN)/qj(Zj)[lnp(X,Z)]+const,=Z1,Z2,...,ZN/Zjlnp(X,Z)i=j(qi(Zi)dZi),j=1,2,3,...,N
迭代更新 q j ∗ ( Z j ) q^*_j(\mathbf Z_j) qj(Zj),从 j = 1 j=1 j=1 开始,得到 q 1 ∗ ( Z 1 ) q^*_1(\mathbf Z_1) q1(Z1) 代入到式子中用于更新 q 2 ∗ ( Z 2 ) q^*_2(\mathbf Z_2) q2(Z2) ,直到收敛(算法保证收敛,因为 − ln ⁡ q j ∗ ( Z j ) -\operatorname{ln}q^*_j(\mathbf Z_j) lnqj(Zj)关于每个因子 q i ( Z i ) q_i(\mathbf Z_i) qi(Zi)是一个凸函数, 最大化上凸(凹)即最下化下凸(凸))。
迭代完成后,通过下式即可以得到逼近的分布表达式。
在这里插入图片描述

PRML

bilibili教程

变分推断和diffusion model之间的联系

### 回答1: 变分推断variational inference)是一种用于在概率模型中近似推断潜在变量的方法。在概率模型中,我们通常有观测数据和潜在变量两个部分。我们希望通过观测数据集来估计潜在变量的后验分布。然而,由于计算复杂度的限制,我们无法直接计算后验分布。 变分推断通过近似后验分布为一个简化的分布来解决这个问题。它会选择一个与真实后验分布相似的分布族,然后通过最小化这个分布与真实后验分布之间的差异来得到一个最佳的近似分布。这个问题可以转化为一个最优化问题,通常使用变分推断的一个常用方法是最大化证据下界(evidence lower bound,ELBO)来近似后验分布。 变分推断的一个重要特点是可以处理大规模和复杂的概率模型。由于近似分布是通过简化的分布族来表示的,而不是直接计算后验分布,所以它可以减少计算复杂度。此外,变分推断还可以通过引入额外的约束或假设来进一步简化近似分布,提高计算效率。 然而,变分推断也有一些缺点。因为近似分布是通过简化的分布族来表示的,所以它会引入一定的偏差。此外,变分推断的结果依赖于所选择的分布族,如果分布族选择不合适,可能会导致较差的近似结果。 总之,变分推断是一种用于近似计算概率模型中后验分布的方法,通过选择一个与真实后验分布相似的分布族,并最小化与真实后验分布之间的差异来得到一个最佳的近似分布。它具有处理大规模和复杂模型的能力,但也有一些局限性。 ### 回答2: 转变分推断variational inference)是一种用于近似求解复杂概率模型的方法。它的核心思想是将复杂的后验分布近似为一个简单的分布,通过最小化这两个分布之间的差异来求解模型的参数。 变分推断通过引入一个简单分布(称为变分分布)来近似复杂的后验分布。这个简单分布通常属于某个已知分布族,例如高斯分布或指数分布。变分推断通过最小化变分分布和真实后验分布之间的差异,来找到最优的参数。 为了实现这一点,变分推断使用了KL散度(Kullback-Leibler divergence)这一概念。KL散度是用来衡量两个概率分布之间的差异的指标。通过最小化变分分布与真实后验分布之间的KL散度,我们可以找到一个最优的变分分布来近似真实后验分布。 变分推断的步骤通常包括以下几个步骤: 1. 定义变分分布:选择一个简单的分布族作为变分分布,例如高斯分布。 2. 定义目标函数:根据KL散度的定义,定义一个目标函数,通常包括模型的似然函数和变分分布的熵。 3. 最优化:使用数值方法(例如梯度下降法)最小化目标函数,找到最优的变分参数。 4. 近似求解:通过最优的变分参数,得到近似的后验分布,并用于模型的推断或预测。 变分推断的优点是可以通过选择合适的变分分布,来控制近似精度和计算复杂度之间的平衡。它可以应用于各种概率模型和机器学习任务,例如潜在变量模型、深度学习和无监督学习等。 总而言之,转变分推断是一种用于近似求解复杂概率模型的方法,通过近似后验分布来求解模型的参数。它通过最小化变分分布与真实后验分布之间的差异来实现近似求解。这个方法可以应用于各种概率模型和机器学习任务,具有广泛的应用价值。 ### 回答3: 变分推断Variational Inference)是一种用于概率模型中的近似推断方法。它的目标是通过近似的方式来近似估计概率分布中的某些未知参数或隐变量。 在概率模型中,我们通常希望得到后验概率分布,即给定观测数据的情况下,未知参数或隐变量的概率分布。然而,由于计算复杂性的原因,我们往往无法直接计算后验分布。 变分推断通过引入一个称为变分分布的简化分布,将原问题转化为一个优化问题。具体来说,我们假设变分分布属于某个分布族,并通过优化一个目标函数,使得变分分布尽可能接近真实的后验分布。 目标函数通常使用卡尔贝克-勒勒散度(Kullback-Leibler divergence)来度量变分分布与真实后验分布之间的差异。通过最小化这个目标函数,我们可以找到最优的近似分布。在这个优化问题中,我们通常将问题转化为一个变分推断问题,其中我们需要优化关于变分分布的参数。 变分推断的一个优点是可以应用于各种类型的概率模型,无论是具有连续随机变量还是离散变量。此外,变分推断还可以解决复杂的后验推断问题,如变分贝叶斯方法和逐步变分推断等。 然而,变分推断也存在一些限制。例如,它通常要求选择一个合适的变分分布族,并且该族必须在计算上可以处理。此外,变分推断还可能导致近似误差,因为我们将问题简化为一个优化问题,可能会导致对真实后验分布的一些信息丢失。 总而言之,变分推断是一种强大的近似推断方法,可以用于概率模型中的参数和隐变量的估计。它通过引入变分分布来近似计算复杂的后验概率分布,从而转化为一个优化问题。然而,需要注意选择合适的变分分布族和可能的近似误差。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值