Variational inference:变分推断

前言:初学小白边学边写,如有不准确还请各位指出。

一、背景

        在本章中,我们将讨论变分推断,它将后验推断简化为优化问题。请注意,变分推断是一个庞大的主题,本章只是给出了一个高层次的概述。

        为什么说变分推断将后验推断简化为优化问题呢?

(一)优化:

        当从统计学角度的频率角度来解释和理解机器学习的方法论时,机器学习的目标是通过对样本的频率分布进行建模,从中推断出模型参数的最优估计。在频率角度中,模型参数的最佳值是通过最小化损失函数Loss Function来寻找的,此时机器学习问题被视为一个优化问题,在不断优化中寻找最佳参数。例如回归问题

                模型:f\left ( w \right )= w^{T}x,参数为w,目标求最佳w

                策略:loss function:L(w) = \sum_{i=1}^{n}\left \| w^{T} x_{i}-y_{i}\right \|^{2},  \hat{w} = argminL(w)

                通过不断优化损失函数的方法来求最佳w

                解法:如梯度下降算法等。

(二)后验推断:

        与频率角度相对的是贝叶斯角度。在贝叶斯角度下,机器学习算法的目标是通过将先验知识与观测数据相结合,推断出模型的后验分布。贝叶斯角度强调了不确定性的存在,并将概率作为描述模型参数和预测结果的基本工具。

        贝叶斯定理:p(\theta |x)=\frac{p( x|\theta)p(\theta)}{p(x)}\theta为模型的参数,x为原始训练数据

        先验:p(w),即对参数的原有认知

        似然:p(x|\theta),不同参数下的x的分布

        后验:p(\theta|x)。p(x)是固定值,不受模型参数的影响,后验即为原有认知p(\theta)在通过学习一些数据p(x|\theta)后,重新对\theta的认识。通过后验分布,我们可以获得关于参数的不确定性信息。

        在贝叶斯角度中,机器学习问题被视为一个推断问题,通过观测数据来更新模型参数的概率分布。 贝叶斯具有推断与决策两个任务:

        贝叶斯推断(Inference):求后验分布。

        贝叶斯决策(decision):根据已有的n各样本X,以及新的样本\hat{x},求

p(\hat{x}|x)=\int_{\theta }^{}p\left ( \hat{x} ,\theta |x\right )d\theta = \int_{\theta }^{}p\left ( \hat{x} | \theta\right )p(\theta |x)d\theta = E_{\theta |x}[p(\hat{x}|\theta )]

        决策问题转换为求后验的期望,所以在贝叶斯框架中,关键是求后验,即进行贝叶斯推断。

        求法:精确推断、近似推断(确定性近似、随机近似)

        变分推断( Variational inference )即为一种确定性近似的方法,它可以将后验推断简化为优化问题。即想办法找到一个分布q(z)去逼近我们没有办法计算得到解析解的后验分布。

二、公式推导

(一) 变量含义:

X:观测数据(observed data),即直接观察或收集到的数据。

Z:隐变量和参数(latent variable + parameter),隐变量为不可观察的变量,起关键作用的未知变量,参数是模型中需要学习或估计的固定值,二者合称为Z。

(X,Z):完全数据(complete data),X和Z的联合,提供数据生成过程的完整信息。

(二) 推导过程:

logP(X)=logP(X,Z)-logP(Z|X)=log\frac{P(X,Z)}{q(Z)}-log\frac{logP(Z|X)}{q(Z)}

对上式等号两边分别对 q(Z) 求期望:

左边:        E(logP(X))=\int_{Z}^{}logP(X)q(Z)dZ=logP(X)

右边第一项:E(log\frac{P(X,Z)}{q(Z)})=\int_{Z}^{}q(Z)\cdot log\frac{P(X,Z)}{q(Z)}dZ= \pounds (q)

右边第二项:E(log\frac{logP(Z|X)}{q(Z)})=\int_{Z}^{}q(Z)log\frac{logP(Z|X)}{q(Z)}dZ=KL(q||p)

即:logP(X)=\pounds (q)+KL(q||p)

        右边第一项被称为ELBO(Evidence Lower Bound)对数证据下界, 右边第二项是真实后验分布(真实且未知)与近似后验分布之间的KL散度(Kullback-Leibler divergence),它们通常用于评估变分推断方法的近似质量。

        上文已说,求解后验分布通常是非常困难的,所以我们采用变分推断的近似推断来近似后验分布,使\tilde{q(Z)}\approx p(Z|X)。其中一个关键问题是如何衡量近似后验分布的质量。ELBO就提供了一个衡量近似后验分布质量的指标。它是真实后验分布(真实且未知)与近似后验分布之间的KL散度(Kullback-Leibler divergence)的下界。KL越小,q(Z)与p(Z|X)就越接近,ELBO越大,近似后验分布的质量越高,与真实后验分布的差距就越小。

        所以我们要做的就是寻找一个q(Z),使ELBO达到最大值,即

\tilde{q(Z)}=argmax\pounds (q)\approx p(Z|X)

       已知Z是一组隐变量和参数组成的一组随机变量的一个组合,假设q(Z)可以划分为M个组,每个划分之间是没有相互作用的,是相互独立的。(思想源于统计学中的mean theory)

q(Z)=\prod_{i=1}^{M}q_{i}(Z_{i})

        求其中的q_{j}^{},要先把其他M-1个分量(1,2,...j-1,j+1,...M-1,M)固定住。求出每个q_{j}^{}后再相乘得到q(Z)。

        将其代入\pounds (q)\pounds (q)=\int_{Z}^{}q(Z)logP(X,Z)dZ-\int_{Z}^{}q(Z)\cdot log q(Z)dZ

        其中,\int_{Z}^{}q(Z)logP(X,Z)dZ记作1式,\int_{Z}^{}q(Z)\cdot log q(Z)dZ记作2式。

        1式  =\int_{Z}^{}\prod_{i=1}^{M}q_{i}(Z_{i})\cdot logP(X,Z)dZ_{1}dZ_{2}...dZ_{M}

                = \int_{Z_{j}}^{}q_{j}(Z_{j})[\int_{Z_{1...M(i\neq j)}}^{}\prod_{i\neq j}^{M}q_{i}(Z_{i})\cdot logP(X,Z)\cdot dZ_{1...M(i\neq j)}]\cdot dZ_{j}

                = \int_{Z_{j}}^{}q_{j}(Z_{j})[\int_{Z_{1...M(i\neq j)}}^{} logP(X,Z)\cdot\prod_{i\neq j}^{M} q_{i}(Z_{i})\cdot dZ_{1...M(i\neq j)}]\cdot dZ_{j}

                = \int_{Z_{j}}^{}q_{j}(Z_{j})\cdot E_{\prod_{i\neq j}^{M}q_{i}(Z_{i})dZ_{i}}[logP(X,Z)]\cdot dZ_{j}

        2式推导(输入公式太麻烦了,后续改为手写) 

单拎出其中相加的一项来进行推导

可推断出得其他项也会得出此结果,所以

又因为我们只关注j项,被固定的其他项可看作常数C,所以:

\pounds (q)= 1式 - 2式

        = \int_{Z_{j}}^{}q_{j}(Z_{j})\cdot E_{\prod_{i\neq j}^{M}q_{i}(Z_{i})dZ_{i}}[logP(X,Z)]\cdot dZ_{j}-

E_{\prod_{i\neq j}^{M}q_{i}(Z_{i})dZ_{i}}[logP(X,Z)]=

所以

得出最终结论!

参考文献

1. KevinP.Murphy-ProbabilisticMachineLearning_AdvancedTopics(AdaptiveComputatio

2. B站视频:机器学习-变分推断1(背景介绍)_哔哩哔哩_bilibili

### 回答1: 变分推断variational inference)是一种用于在概率模型中近似推断潜在变量的方法。在概率模型中,我们通常有观测数据和潜在变量两个部分。我们希望通过观测数据集来估计潜在变量的后验分布。然而,由于计算复杂度的限制,我们无法直接计算后验分布。 变分推断通过近似后验分布为一个简化的分布来解决这个问题。它会选择一个与真实后验分布相似的分布族,然后通过最小化这个分布与真实后验分布之间的差异来得到一个最佳的近似分布。这个问题可以转化为一个最优化问题,通常使用变分推断的一个常用方法是最大化证据下界(evidence lower bound,ELBO)来近似后验分布。 变分推断的一个重要特点是可以处理大规模和复杂的概率模型。由于近似分布是通过简化的分布族来表示的,而不是直接计算后验分布,所以它可以减少计算复杂度。此外,变分推断还可以通过引入额外的约束或假设来进一步简化近似分布,提高计算效率。 然而,变分推断也有一些缺点。因为近似分布是通过简化的分布族来表示的,所以它会引入一定的偏差。此外,变分推断的结果依赖于所选择的分布族,如果分布族选择不合适,可能会导致较差的近似结果。 总之,变分推断是一种用于近似计算概率模型中后验分布的方法,通过选择一个与真实后验分布相似的分布族,并最小化与真实后验分布之间的差异来得到一个最佳的近似分布。它具有处理大规模和复杂模型的能力,但也有一些局限性。 ### 回答2: 转变分推断variational inference)是一种用于近似求解复杂概率模型的方法。它的核心思想是将复杂的后验分布近似为一个简单的分布,通过最小化这两个分布之间的差异来求解模型的参数。 变分推断通过引入一个简单分布(称为变分分布)来近似复杂的后验分布。这个简单分布通常属于某个已知分布族,例如高斯分布或指数分布。变分推断通过最小化变分分布和真实后验分布之间的差异,来找到最优的参数。 为了实现这一点,变分推断使用了KL散度(Kullback-Leibler divergence)这一概念。KL散度是用来衡量两个概率分布之间的差异的指标。通过最小化变分分布与真实后验分布之间的KL散度,我们可以找到一个最优的变分分布来近似真实后验分布。 变分推断的步骤通常包括以下几个步骤: 1. 定义变分分布:选择一个简单的分布族作为变分分布,例如高斯分布。 2. 定义目标函数:根据KL散度的定义,定义一个目标函数,通常包括模型的似然函数和变分分布的熵。 3. 最优化:使用数值方法(例如梯度下降法)最小化目标函数,找到最优的变分参数。 4. 近似求解:通过最优的变分参数,得到近似的后验分布,并用于模型的推断或预测。 变分推断的优点是可以通过选择合适的变分分布,来控制近似精度和计算复杂度之间的平衡。它可以应用于各种概率模型和机器学习任务,例如潜在变量模型、深度学习和无监督学习等。 总而言之,转变分推断是一种用于近似求解复杂概率模型的方法,通过近似后验分布来求解模型的参数。它通过最小化变分分布与真实后验分布之间的差异来实现近似求解。这个方法可以应用于各种概率模型和机器学习任务,具有广泛的应用价值。 ### 回答3: 变分推断Variational Inference)是一种用于概率模型中的近似推断方法。它的目标是通过近似的方式来近似估计概率分布中的某些未知参数或隐变量。 在概率模型中,我们通常希望得到后验概率分布,即给定观测数据的情况下,未知参数或隐变量的概率分布。然而,由于计算复杂性的原因,我们往往无法直接计算后验分布。 变分推断通过引入一个称为变分分布的简化分布,将原问题转化为一个优化问题。具体来说,我们假设变分分布属于某个分布族,并通过优化一个目标函数,使得变分分布尽可能接近真实的后验分布。 目标函数通常使用卡尔贝克-勒勒散度(Kullback-Leibler divergence)来度量变分分布与真实后验分布之间的差异。通过最小化这个目标函数,我们可以找到最优的近似分布。在这个优化问题中,我们通常将问题转化为一个变分推断问题,其中我们需要优化关于变分分布的参数。 变分推断的一个优点是可以应用于各种类型的概率模型,无论是具有连续随机变量还是离散变量。此外,变分推断还可以解决复杂的后验推断问题,如变分贝叶斯方法和逐步变分推断等。 然而,变分推断也存在一些限制。例如,它通常要求选择一个合适的变分分布族,并且该族必须在计算上可以处理。此外,变分推断还可能导致近似误差,因为我们将问题简化为一个优化问题,可能会导致对真实后验分布的一些信息丢失。 总而言之,变分推断是一种强大的近似推断方法,可以用于概率模型中的参数和隐变量的估计。它通过引入变分分布来近似计算复杂的后验概率分布,从而转化为一个优化问题。然而,需要注意选择合适的变分分布族和可能的近似误差。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值