变分推断(Variational Inference)

从变分推断(Variational Inference)说起

   在贝叶斯体系中,推断(inference) 指的是 利用已知变量x的观测值推测未知变量z的后验分布,即我们在已经输入变量x后,如何获得未知变量z的分布p(z|x)[3].通俗一点讲一个完整的故事就是,如果没有任何信息,我们可能大概了解一个(latent)变量z的分布,这个分布可能方差比较大。变量x是可观察的,并含有z的一些信息。那么在观察到x后,关于z的分布(此时是后验分布p(z|x))会发生变化,比如方差变得更小了,如下图所示。
在这里插入图片描述
  利用贝叶斯公式:[4]
在这里插入图片描述
p ( x ∣ z ) p(x|z) p(xz) p ( z ) p(z) p(z)可以做出必要的假设符合某个分布。 p ( x ) p(x) p(x)是已经观察到的,所以称为证据(evidence)。
变分推断的一般步骤:
在这里插入图片描述
  精确推断方法准确地计算 p ( z ∣ x ) p(z|x) p(zx),该过程往往需要很大的计算开销,现实应用中近似推断更为常用。近似推断的方法往往分为两大类:

  • 第一类是采样,常见的是MCMC方法,
  • 第二类是使用另一个分布近似 p ( z ∣ x ) p(z|x) p(zx),典型代表就是变分推断。变分推断可以是推断后验分布的期望或者方差。

近似变分推断,就是要找到一个分布 q ∗ ( z ) q^*(z) q(z)去近似后验分布 p ( z ∣ x ) p(z|x) p(zx)

  • 指定一个关于z的分布族Q
  • 找到一个 q ∗ ( z ) ∈ Q q^*(z) \in Q q(z)Q去近似 p ( z ∣ x ) p(z|x) p(zx)
    在这里插入图片描述
    其中L是一种度量,可以度量两个分布分近似程度。Variational Bayes(变分贝叶斯,VB) 的这个度量采用KL距离:
    在这里插入图片描述
      KL距离,是Kullback-Leibler差异(Kullback-Leibler Divergence)的简称,也叫做相对熵(RelativeEntropy)。它衡量的是相同事件空间里的两个概率分布的差异情况。其物理意义是:在相同事件空间里,概率分布P(x)的事件空间,若用概率分布 Q ( x ) Q(x) Q(x)编码时,平均每个基本事件(符号)编码长度增加了多少比特。[5]
    在这里插入图片描述
    这里对KL的意义再重点讨论一下:
      KL的意义其实也很好理解。现在假如有两个概率分布P(x)和Q(x),现在要看看分布Q(x)与分布P(x)的接近程度。怎么做呢?其实很容易能够想到,就是根据分布P(x)中采样N个数: x 1 , x 2 , . . . , x N x_1,x_2,...,x_N x1,x2,...,xN,看 P ( x 1 ) P ( x 2 ) . . . P ( x N ) Q ( x 1 ) Q ( x 2 ) . . . Q ( x N ) \frac{P(x_1)P(x_2)...P(x_N)}{Q(x_1)Q(x_2)...Q(x_N)} Q(x1)Q(x2)...Q(xN)P(x1)P(x2)...P(xN)与1
    的接近程度,如果取对数就是 l o g ( P ( x 1 ) Q ( x 1 ) ) + l o g ( P ( x 2 ) Q ( x 2 ) ) + . . . + l o g ( P ( x N ) Q ( x N ) ) log(\frac{P(x_1)}{Q(x_1)})+log(\frac{P(x_2)}{Q(x_2)})+...+log(\frac{P(x_N)}{Q(x_N)}) log(Q(x1)P(x1))+log(Q(x2)P(x2))+...+log(Q(xN)P(xN))与0的接近程度,取平均数: 1 N ( l o g ( P ( x 1 ) Q ( x 1 ) ) + l o g ( P ( x 2 ) Q ( x 2 ) ) + . . . + l o g ( P ( x N ) Q ( x N ) ) ) \frac{1}{N}(log(\frac{P(x_1)}{Q(x_1)})+log(\frac{P(x_2)}{Q(x_2)})+...+log(\frac{P(x_N)}{Q(x_N)})) N1(log(Q(x1)P(x1))+log(Q(x2)P(x2))+...+log(Q(xN)P(xN))),这个就是对 ∑ x ∈ X P ( x ) l o g ( P ( x ) Q ( x ) ) \sum_{x \in X}P(x)log(\frac{P(x)}{Q(x)}) xXP(x)log(Q(x)P(x))的估计。因为是看分布Q(x)与分布P(x)的接近程度,所以是从P(x)取样,如果是看分布P(x)与分布Q(x)的接近程度,那就是从Q(x)取样,那么就是 ∑ x ∈ X Q ( x ) l o g ( Q ( x ) P ( x ) ) \sum_{x \in X}Q(x)log(\frac{Q(x)}{P(x)}) xXQ(x)log(P(x)Q(x)),二者肯定是不一样的,所以KL距离不是对称的。

   这样做下面的一步推导,其中 p ( z ∣ x ) p(z|x) p(zx)是未知的(本质上, p ( x ) p(x) p(x)是未知的)。
在这里插入图片描述
这样做进一步的变化,把 p ( z ∣ x ) p(z|x) p(zx)拆开。
在这里插入图片描述
关于ELBO(evidence lower bound,evidence下界):

  • ELBO是evidence的对数的下界
  • K L ( q ( z ) ∣ ∣ p ( z ∣ x ) ) KL(q(z)||p(z|x)) KL(q(z)∣∣p(zx))的最小化等价于对ELBO的最大化(做这样的转化是必要的,因为ELBO中是没有未知量的)
  • ELBO中的 p ( x , z ) = p ( x ∣ z ) p ( z ) p(x,z)=p(x|z)p(z) p(x,z)=p(xz)p(z) p ( x ∣ z ) p(x|z) p(xz) p ( z ) p(z) p(z)都做了假设,是知道的,所以 p ( x , z ) p(x,z) p(x,z)是知道的。

在这里插入图片描述

参考链接:

[3]:变分推断(Variational Inference)初探 - 知乎 (zhihu.com)

[4]: 变分推断-1贝叶斯统计 详细推导 Variational Inference「机器学习」_哔哩哔哩_bilibili
[5]: 计算 KL距离 (相对熵)

https://zhuanlan.zhihu.com/p/507776434

https://zhuanlan.zhihu.com/p/340226815

https://zhuanlan.zhihu.com/p/57574493

https://blog.csdn.net/m0_58547949/article/details/127963524

https://kexue.fm/archives/5253

  • 25
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 变分推断variational inference)是一种用于在概率模型中近似推断潜在变量的方法。在概率模型中,我们通常有观测数据和潜在变量两个部分。我们希望通过观测数据集来估计潜在变量的后验分布。然而,由于计算复杂度的限制,我们无法直接计算后验分布。 变分推断通过近似后验分布为一个简化的分布来解决这个问题。它会选择一个与真实后验分布相似的分布族,然后通过最小化这个分布与真实后验分布之间的差异来得到一个最佳的近似分布。这个问题可以转化为一个最优化问题,通常使用变分推断的一个常用方法是最大化证据下界(evidence lower bound,ELBO)来近似后验分布。 变分推断的一个重要特点是可以处理大规模和复杂的概率模型。由于近似分布是通过简化的分布族来表示的,而不是直接计算后验分布,所以它可以减少计算复杂度。此外,变分推断还可以通过引入额外的约束或假设来进一步简化近似分布,提高计算效率。 然而,变分推断也有一些缺点。因为近似分布是通过简化的分布族来表示的,所以它会引入一定的偏差。此外,变分推断的结果依赖于所选择的分布族,如果分布族选择不合适,可能会导致较差的近似结果。 总之,变分推断是一种用于近似计算概率模型中后验分布的方法,通过选择一个与真实后验分布相似的分布族,并最小化与真实后验分布之间的差异来得到一个最佳的近似分布。它具有处理大规模和复杂模型的能力,但也有一些局限性。 ### 回答2: 转变分推断variational inference)是一种用于近似求解复杂概率模型的方法。它的核心思想是将复杂的后验分布近似为一个简单的分布,通过最小化这两个分布之间的差异来求解模型的参数。 变分推断通过引入一个简单分布(称为变分分布)来近似复杂的后验分布。这个简单分布通常属于某个已知分布族,例如高斯分布或指数分布。变分推断通过最小化变分分布和真实后验分布之间的差异,来找到最优的参数。 为了实现这一点,变分推断使用了KL散度(Kullback-Leibler divergence)这一概念。KL散度是用来衡量两个概率分布之间的差异的指标。通过最小化变分分布与真实后验分布之间的KL散度,我们可以找到一个最优的变分分布来近似真实后验分布。 变分推断的步骤通常包括以下几个步骤: 1. 定义变分分布:选择一个简单的分布族作为变分分布,例如高斯分布。 2. 定义目标函数:根据KL散度的定义,定义一个目标函数,通常包括模型的似然函数和变分分布的熵。 3. 最优化:使用数值方法(例如梯度下降法)最小化目标函数,找到最优的变分参数。 4. 近似求解:通过最优的变分参数,得到近似的后验分布,并用于模型的推断或预测。 变分推断的优点是可以通过选择合适的变分分布,来控制近似精度和计算复杂度之间的平衡。它可以应用于各种概率模型和机器学习任务,例如潜在变量模型、深度学习和无监督学习等。 总而言之,转变分推断是一种用于近似求解复杂概率模型的方法,通过近似后验分布来求解模型的参数。它通过最小化变分分布与真实后验分布之间的差异来实现近似求解。这个方法可以应用于各种概率模型和机器学习任务,具有广泛的应用价值。 ### 回答3: 变分推断Variational Inference)是一种用于概率模型中的近似推断方法。它的目标是通过近似的方式来近似估计概率分布中的某些未知参数或隐变量。 在概率模型中,我们通常希望得到后验概率分布,即给定观测数据的情况下,未知参数或隐变量的概率分布。然而,由于计算复杂性的原因,我们往往无法直接计算后验分布。 变分推断通过引入一个称为变分分布的简化分布,将原问题转化为一个优化问题。具体来说,我们假设变分分布属于某个分布族,并通过优化一个目标函数,使得变分分布尽可能接近真实的后验分布。 目标函数通常使用卡尔贝克-勒勒散度(Kullback-Leibler divergence)来度量变分分布与真实后验分布之间的差异。通过最小化这个目标函数,我们可以找到最优的近似分布。在这个优化问题中,我们通常将问题转化为一个变分推断问题,其中我们需要优化关于变分分布的参数。 变分推断的一个优点是可以应用于各种类型的概率模型,无论是具有连续随机变量还是离散变量。此外,变分推断还可以解决复杂的后验推断问题,如变分贝叶斯方法和逐步变分推断等。 然而,变分推断也存在一些限制。例如,它通常要求选择一个合适的变分分布族,并且该族必须在计算上可以处理。此外,变分推断还可能导致近似误差,因为我们将问题简化为一个优化问题,可能会导致对真实后验分布的一些信息丢失。 总而言之,变分推断是一种强大的近似推断方法,可以用于概率模型中的参数和隐变量的估计。它通过引入变分分布来近似计算复杂的后验概率分布,从而转化为一个优化问题。然而,需要注意选择合适的变分分布族和可能的近似误差。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值