带结构推理网络的变分信息传递(Variational Message Passing with Structured Inference Networks ICLR 2018)文章阅读

引言

深度模型与概率图形模型相结合的推理方法可以提供既灵活又易于解释的模型。文章提出了一种变分推理算法,用于在混合模型中的变分推理。首先,文章提出了一种结合了图模型和变分自编码(VAE)的结构化推理网络。其次,文章建立了一些条件,在这些条件下,这种推理网络可以实现类似于 VAE 的快速摊销推理(amortized inference)。最后,文章推导了变分消息传递算法来执行高效的自然梯度推理,同时保留了有效的摊销推理。通过同时支持对于深度结构化模型的结构化、摊销、自然梯度推理,本文的方法简化和扩展了目前的推理方法。

模型和挑战

考虑使用局部隐变量 x n \mathbf{x}_n xn建模数据向量 y n \mathbf{y}_n yn。文章通过给定 x n \mathbf{x}_n xn和神经网络参数 θ N N \mathbf{\theta}_{\mathrm{NN}} θNN建模 y n \mathbf{y}_n yn,并使用概率图模型(PGM)表示数据 x : = { x 1 , x 2 , … , x N } \mathbf{x}:=\{\mathbf{x}_1,\mathbf{x}_2,\ldots,\mathbf{x}_N\} x:={x1,x2,,xN}和隐变量 y : = { y 1 , y 2 , … , y N } \mathbf{y}:=\{\mathbf{y}_1,\mathbf{y}_2,\ldots,\mathbf{y}_N\} y:={y1,y2,,yN}之间的关系。具体来说,联合分布如何
p ( y , x , θ ) : = [ ∏ n = 1 N p ( y n ∣ x n , θ N N ) ] ⏟ DNN [ p ( x ∣ θ P G M ) ] ⏟ DNN [ p ( θ P G M ) ] ⏟ Hyperprior \begin{equation} p(\mathbf{y}, \mathbf{x}, \mathbf{\theta}):= \underbrace{ \Bigg [ \prod_{n=1}^N p(\mathbf{y}_n |\mathbf{x}_n, \mathbf{\theta}_{\mathrm{NN}}) \Bigg ]}_{\textrm{DNN}} \underbrace{ \Bigg [ p(\mathbf{x}| \mathbf{\theta}_{\mathrm{PGM}}) \Bigg] }_{\textrm{DNN}} \underbrace{ \Bigg [p(\mathbf{\theta}_{\mathrm{PGM}}) \Bigg ]}_{\textrm{Hyperprior}} \end{equation} p(y,x,θ):=DNN [n=1Np(ynxn,θNN)]DNN [p(xθPGM)]Hyperprior [p(θPGM)]
其中 θ N N \mathbf{\theta}_{\mathrm{NN}} θNN θ P G M \mathbf{\theta}_{\mathrm{PGM}} θPGM分别是深度神经网络(DNN)和概率图模型(PGM)的参数,并且 θ : = { θ N N , θ P G M } \mathbf{\theta}:=\{\mathbf{\theta}_{\mathrm{NN}}, \mathbf{\theta}_{\mathrm{PGM}}\} θ:={θNN,θPGM}

这种结合了DNN和PGM的模型被称为结构化变分自编码(SVAE),该模型使用结构化先验 p ( x ∣ θ P G M ) p(\mathbf{x}| \mathbf{\theta}_{\mathrm{PGM}}) p(xθPGM)来从数据中提取有用的结构信息。SVAE与VAE最大的区别为,VAE的先验分布为一个简单的多变量高斯分布 p ( x ) = N ( x ∣ 0 , I ) p(\mathbf{x})=\mathcal{N}(\mathbf{x}|0, \mathbf{I}) p(x)=N(x∣0,I),而没有结构化分布。给出下列混合先验示例。

示例:混合模型先验

假设我们想要将数据 y n \mathbf{y}_n yn分组到 K K K个聚类团。对于这样一个任务,标准的高斯先验不是一个合适的先验。我们应该使用 x n \mathbf{x}_n xn的混合模型先验,如下
p ( x ∣ θ P G M ) = ∏ n = 1 N p ( x n ∣ θ P G M ) = ∏ n = 1 N [ ∑ k = 1 K p ( x n ∣ z n = k ) π k ] \begin{equation} p(\mathbf{x}| \mathbf{\theta}_{\mathrm{PGM}}) = \prod_{n=1}^N p(\mathbf{x}_n | \mathbf{\theta}_{\mathrm{PGM}}) = \prod_{n=1}^N \left[ \sum_{k=1}^K p(\mathbf{x}_n | {z}_n=k) \pi_k \right] \end{equation} p(xθPGM)=n=1Np(xnθPGM)=n=1N[k=1Kp(xnzn=k)πk]
其中, z k ∈ { 1 , 2 , … , K } z_k \in\{1,2,\ldots,K\} zk{1,2,,K}为第 n n n个数据的混合下标, π k \pi_k πk为混合比例,并且 ∑ k = 1 K π k = 1 \sum_{k=1}^K \pi_k=1 k=1Kπk=1。每一个混合分量可以被进一步建模,例如,采用高斯分布, p ( x n ∣ z n = k ) : = N ( x n ∣ μ n , Σ n ) p(\mathbf{x}_n | {z}_n=k) := \mathcal{N}(\mathbf{x}_n| \mathbf{\mu}_n, \mathbf{\Sigma}_n ) p(xnzn=k):=N(xnμn,Σn),如此,先验分布为高斯混合模型,PGM的超参数为 θ P G M : = { μ n , Σ n , π k } k = 1 K \mathbf{\theta}_{\mathrm{PGM}}:= \{ \mathbf{\mu}_n, \mathbf{\Sigma}_n,\pi_k \}_{k=1}^K θPGM:={μn,Σn,πk}k=1K。图1给出了SVAE的先验模型。这类型的结构化先验对于发现数据中的聚类团是有效的,比VAE的推理更加简单。
图1 (a)为结合了深度模型和PGM的生成式模型,(b)为结构化推理模型

图1 (a)为结合了深度模型和PGM的生成式模型,(b)为结构化推理模型

文章的主要目的是近似后验分布 p ( x , θ ∣ y ) p(\mathbf{x}, \mathbf{\theta}| \mathbf{y}) p(x,θy)。具体来说,类似于VAE,我们想要通过推理网络近似 x \mathbf{x} x后验分布。在VAE,这通过DNN表示的参数化函数实现,给出
p ( x ∣ y , θ N N ) ≈ ∏ n = 1 N q ( x n ∣ f ϕ ( y n ) ) \begin{equation} p(\mathbf{x}| \mathbf{y}, \mathbf{\theta}_{\mathrm{NN}}) \approx \prod_{n=1}^N q(\mathbf{x}_n | f_{\phi } (\mathbf{y}_n)) \end{equation} p(xy,θNN)n=1Nq(xnfϕ(yn))
其中, p ( x ∣ y , θ N N ) p(\mathbf{x}| \mathbf{y}, \mathbf{\theta}_{\rm NN}) p(xy,θNN)表示 x \mathbf{x} x的后验分布, q ( x n ∣ f ϕ ( y n ) ) q(\mathbf{x}_n | f_{\phi } (\mathbf{y}_n)) q(xnfϕ(yn))为编码器的分布,一般来说, q q q是指数族分布,它的参数使用参数为 ϕ \phi ϕ的DNN f ϕ f_{\phi } fϕ给出。对所有使用相同的函数 f ϕ ( ⋅ ) f_{\phi }(\cdot) fϕ(),从而减少了变分参数的数量,并能在之间共享统计优势。

结构化推理网络

本文首先设计了一种结合了PGM和VAE的推理网络。然后,提出了包含了两种类型因子的结构化推理网络(SIN),
q ( x ∣ y , ϕ ) : = 1 Z ( ϕ ) [ ∏ n = 1 N q ( x n ∣ f ϕ N N ( y n ) ) ] ⏟ D N N   F a c t o r [ q ( x ∣ ϕ P G M ) ] ⏟ P G M   F a c t o r \begin{equation} q(\mathbf{x}| \mathbf{y}, \mathbf{\phi }):= \frac{1}{\mathcal{Z}(\mathbf{\phi })} \underbrace{\Bigg[ \prod_{n=1}^N q(\mathbf{x}_n | f_{\mathbf{\phi}_{\rm NN}} (\mathbf{y}_n)) \Bigg]}_{\rm DNN \ Factor} \underbrace{\Bigg[ q(\mathbf{x} | {\mathbf{\phi}_{\rm PGM}}) \Bigg]}_{\rm PGM \ Factor} \end{equation} q(xy,ϕ):=Z(ϕ)1DNN Factor [n=1Nq(xnfϕNN(yn))]PGM Factor [q(xϕPGM)]
这里的DNN Factor类似于公式(3),PGM Factor为一个与PGM先验 p ( x ∣ θ P G M ) p(\bf{x}| \bm{\theta}_{\rm PGM}) p(xθPGM)具有相似图结构的指数族分布。DNN因子的作用是实现灵活性,PGM因子的作用是模型的PGM结构结合到推理网络。两个因子都有自己的参数。 ϕ N N \phi_{\rm NN} ϕNN为DNN的参数, ϕ P G M \phi_{\rm PGM} ϕPGM为PGM的参数。参数集合记为 ϕ : = { ϕ N N , ϕ P G M } \phi:=\{ \phi_{\rm NN}, \phi_{\rm PGM} \} ϕ:={ϕNN,ϕPGM}

为了快速的摊销推理,这些DNN因子和PGM因子需要满足下面两个条件。第一个条件是归一化因子 log ⁡ Z ( ϕ ) \log \mathcal{Z}(\mathbf{\phi }) logZ(ϕ)容易计算和可微的。第二个条件是可以从SIN中采样,即, x ∗ ( ϕ ) ∼ q ( x ∣ y . ϕ ) \mathbf{x}^{*}(\phi) \sim q(\mathbf{x} | \mathbf{y}. \phi) x(ϕ)q(xy.ϕ)。还有一个非必要的条件,希望可以使用重参数化技巧计算 x ∗ ( ϕ ) \mathbf{x}^{*}(\phi) x(ϕ)的梯度。

当上面两个条件成立时,下界的随机梯度可以采用与VAE相似的方法计算。下面,我们假设 θ \theta θ是一个确定变量(下一节松弛这个条件)。这种情况下,变分下界可以计算为
L S I N ( θ , ϕ ) : = E q [ log ⁡ p ( y , x ∣ θ ) q ( x ∣ y , ϕ ) ] = E q [ log ⁡ ∏ n { p ( y n ∣ x n , θ N N ) } p ( x ∣ θ P G M ) Z ( ϕ ) ∏ n q ( x n ∣ f ϕ N N ( y n ) ) q ( x ∣ ϕ P G M ) ] = ∑ n = 1 N E q [ log ⁡ p ( y n ∣ x n , θ N N ) q ( x n ∣ f ϕ N N ( y n ) ) ] + E q [ log ⁡ p ( x ∣ θ P G M ) ] − E q [ log ⁡ q ( x ∣ ϕ P G M ) ] + log ⁡ Z ( ϕ ) \begin{equation} \begin{split} \mathcal{L}& _{\rm SIN}(\theta, \phi) := \mathbb{E}_q \left[ \log \frac{p(\mathbf{y}, \mathbf{x} | \mathbf{\theta})}{q(\mathbf{x}| \mathbf{y}, \mathbf{\phi })} \right] = \mathbb{E}_q \left[ \log \frac{{ \prod_{n} \{ p(\mathbf{y}_n |\mathbf{x}_n, \mathbf{\theta}_{\mathrm{NN}}) \} } { p(\mathbf{x}| \mathbf{\theta}_{\mathrm{PGM}}) } \mathcal{Z}(\mathbf{\phi })} { { \prod_{n} q(\mathbf{x}_n | f_{\mathbf{\phi}_{\rm NN}} (\mathbf{y}_n)) } { q(\mathbf{x} | {\mathbf{\phi}_{\rm PGM}}) } } \right] \\ & = \sum_{n=1}^N \mathbb{E}_q \left[ \log \frac{ p(\mathbf{y}_n |\mathbf{x}_n, \mathbf{\theta}_{\mathrm{NN}})}{q(\mathbf{x}_n | f_{\mathbf{\phi}_{\rm NN}} (\mathbf{y}_n))} \right] + \mathbb{E}_q \left[ \log p(\mathbf{x}| \mathbf{\theta}_{\mathrm{PGM}}) \right] - \mathbb{E}_q \left[ \log q(\mathbf{x} | {\mathbf{\phi}_{\rm PGM}}) \right] + \log \mathcal{Z}(\mathbf{\phi }) \end{split} \end{equation} LSIN(θ,ϕ):=Eq[logq(xy,ϕ)p(y,xθ)]=Eq[lognq(xnfϕNN(yn))q(xϕPGM)n{p(ynxn,θNN)}p(xθPGM)Z(ϕ)]=n=1NEq[logq(xnfϕNN(yn))p(ynxn,θNN)]+Eq[logp(xθPGM)]Eq[logq(xϕPGM)]+logZ(ϕ)
上式的第一部分与标准VAE的下界是一致的;第二部分为PGM先验先验下界;剩下两部分为PGM结构。如果可以计算最后三项的梯度并从SIN中采样 x ∗ ( ϕ ) \mathbf{x}^*(\phi) x(ϕ),可以进行类似VAE的摊销推理。

GMM先验的SIN

公式(2)中有额外的隐变量 z n z_n zn。为了在SIN中使用GMM模型,我们选择的参数为 ϕ P G M : = { μ ˉ k , Σ ˉ k , π ˉ k } k = 1 K \phi_{\rm PGM} := \{ \mathbf{\bar{\mu}}_k, \mathbf{\bar{\Sigma}}_k, \bar{\pi}_k \}_{k=1}^K ϕPGM:={μˉk,Σˉk,πˉk}k=1K,同时保持DNN部分为高斯分布
q ( x ∣ y , ϕ ) : = 1 Z ( ϕ ) ∏ n = 1 N [ N ( x n ∣ m n , V n ) ] ⏟ D N N   F a c t o r [ ∑ k = 1 K N ( x n ∣ μ ˉ k , Σ ˉ k ) π ˉ k ] ⏟ P G M   F a c t o r \begin{equation} q(\mathbf{x}| \mathbf{y}, \mathbf{\phi }):= \frac{1}{\mathcal{Z}(\mathbf{\phi })} \prod_{n=1}^N \underbrace{\Bigg[ \mathcal{N}(\mathbf{x}_n| \mathbf{m}_n, \mathbf{V}_n) \Bigg]}_{\rm DNN \ Factor} \underbrace{\Bigg[ \sum_{k=1}^K \mathcal{N} (\mathbf{x}_n|\mathbf{\bar{\mu}}_k, \mathbf{\bar{\Sigma}}_k)\bar{\pi}_k \Bigg]}_{\rm PGM \ Factor} \end{equation} q(xy,ϕ):=Z(ϕ)1n=1NDNN Factor [N(xnmn,Vn)]PGM Factor [k=1KN(xnμˉk,Σˉk)πˉk]
​幸运的是,因为高斯分布和多模分布是共轭的,我们可以边缘化 x n \mathbf{x}_n xn获得闭式表达式 log ⁡ Z ( ϕ ) : = ∑ n log ⁡ ∑ k N ( m n ∣ μ ˉ n , V n + Σ ˉ n ) π ˉ k \log \mathcal{Z}(\mathbf{\phi }) := \sum_n \log \sum_k \mathcal{N} (\mathbf{m}_n | \mathbf{\bar{\mu}}_n, \mathbf{{V}}_n + \mathbf{\bar{\Sigma}}_n) \bar{\pi}_k logZ(ϕ):=nlogkN(mnμˉn,Vn+Σˉn)πˉk。我们可以从SIN中采用通过边缘化 q ( z n = k ∣ y , ϕ ) ∝ N ( m n ∣ μ ˉ n , V n + Σ ˉ n ) π ˉ k q(z_n=k| \mathbf{y}, \phi) \propto \mathcal{N} (\mathbf{m}_n | \mathbf{\bar{\mu}}_n, \mathbf{{V}}_n + \mathbf{\bar{\Sigma}}_n) \bar{\pi}_k q(zn=ky,ϕ)N(mnμˉn,Vn+Σˉn)πˉk。给定 z n z_n zn,我们可以从分布 q ( x n ∣ z n = k , y , ϕ ) = N ( x n ∣ μ ~ n , Σ ~ n ) q(\mathbf{x}_n | z_n=k, \mathbf{y}, \phi) = \mathcal{N} (\mathbf{x}_n | \mathbf{\tilde{\mu}}_n, \mathbf{\tilde{\Sigma}}_n) q(xnzn=k,y,ϕ)=N(xnμ~n,Σ~n)中采样 x n \mathbf{x}_n xn,其中, Σ ~ n − 1 = V n − 1 + Σ ˉ n − 1 \mathbf{\tilde{\Sigma}}_n^{-1} = \mathbf{{V}}_n^{-1} + \mathbf{\bar{\Sigma}}_n^{-1} Σ~n1=Vn1+Σˉn1以及 μ ~ n = Σ ~ n ( V n − 1 m n + Σ ˉ n − 1 μ n ) \mathbf{\tilde{\mu}}_n = \mathbf{\tilde{\Sigma}}_n ( \mathbf{{V}}_n^{-1} \mathbf{m}_n + \mathbf{\bar{\Sigma}}_n^{-1} \mathbf{\mu}_n ) μ~n=Σ~n(Vn1mn+Σˉn1μn)
GMM分布的变分下界为
L S I N ( θ , ϕ ) = E q [ log ⁡ ∏ n p ( y n ∣ x n , θ N N ) ∑ k N ( x n ∣ μ n , Σ n ) π k Z ( ϕ ) ∏ n N ( x n ∣ m n , V n ) ∑ k N ( x n ∣ μ ˉ k , Σ ˉ k ) π ˉ k ] = ∑ n = 1 N E q [ log ⁡ p ( y n ∣ x n , θ N N ) ] − ∑ n = 1 N E q [ log ⁡ N ( x n ∣ m n , V n ) ] + ∑ n = 1 N E q [ log ⁡ ∑ k N ( x n ∣ μ n , Σ n ) π k ] − E q [ log ⁡ ∑ k N ( x n ∣ μ ˉ k , Σ ˉ k ) π ˉ k ] + log ⁡ Z ( ϕ ) \begin{equation} \begin{split} \mathcal{L} _{\rm SIN}(\theta, \phi) & = \mathbb{E}_q \left[ \log \frac{{ \prod_{n} p(\mathbf{y}_n |\mathbf{x}_n, \mathbf{\theta}_{\mathrm{NN}}) } { \sum_{k} \mathcal{N}(\mathbf{x}_n| \mathbf{\mu}_n, \mathbf{\Sigma}_n ) \pi_k } \mathcal{Z}(\mathbf{\phi })} {\prod_{n} { \mathcal{N}(\mathbf{x}_n| \mathbf{m}_n, \mathbf{V}_n) } { \sum_{k} \mathcal{N} (\mathbf{x}_n|\mathbf{\bar{\mu}}_k, \mathbf{\bar{\Sigma}}_k)\bar{\pi}_k }} \right] \\ = & \sum_{n=1}^N \mathbb{E}_q \left[ \log { p(\mathbf{y}_n |\mathbf{x}_n, \mathbf{\theta}_{\mathrm{NN}})} \right] - \sum_{n=1}^N \mathbb{E}_q \left[ \log {\mathcal{N}(\mathbf{x}_n| \mathbf{m}_n, \mathbf{V}_n)} \right] + \\ & \sum_{n=1}^N \mathbb{E}_q \left[ \log \sum_{k} \mathcal{N}(\mathbf{x}_n| \mathbf{\mu}_n, \mathbf{\Sigma}_n ) \pi_k \right] - \mathbb{E}_q \left[ \log \sum_{k} \mathcal{N} (\mathbf{x}_n|\mathbf{\bar{\mu}}_k, \mathbf{\bar{\Sigma}}_k)\bar{\pi}_k \right] + \log \mathcal{Z}(\mathbf{\phi }) \end{split} \end{equation} LSIN(θ,ϕ)==Eq[lognN(xnmn,Vn)kN(xnμˉk,Σˉk)πˉknp(ynxn,θNN)kN(xnμn,Σn)πkZ(ϕ)]n=1NEq[logp(ynxn,θNN)]n=1NEq[logN(xnmn,Vn)]+n=1NEq[logkN(xnμn,Σn)πk]Eq[logkN(xnμˉk,Σˉk)πˉk]+logZ(ϕ)

自然梯度变分推理的变分信息传递

上面我们假设 θ P G M \theta_{\rm PGM} θPGM是确定的。在本节中,我们松弛这个条件,并假设 θ P G M \theta_{\rm PGM} θPGM服从指数族先验模型 p ( θ P G M ∣ η P G M ) p(\theta_{\rm PGM}|\eta_{\rm PGM}) p(θPGMηPGM),该指数族先验模型的自然参数为 η P G M \eta_{\rm PGM} ηPGM。我们假设平均场近似 q ( x , θ ∣ y ) : = q ( x ∣ y , ϕ ) q ( θ P G M ∣ λ P M ) q(\mathbf{x},\theta|\mathbf{y}):= q(\mathbf{x}|\mathbf{y}, \phi) q(\theta_{\rm PGM} | \lambda_ {\rm PM}) q(x,θy):=q(xy,ϕ)q(θPGMλPM),其中,第一个公式为SIN,第二部分为指数族分布。

我们首先推导变分下界。
L ( λ P G M , θ N N , θ ) = E q ( θ P G M ∣ λ P M ) [ L S I N ( θ , ϕ ) ] − E K L [ q ( θ P G M ∣ λ P M ) ∣ ∣ p ( θ P G M ∣ λ P M ) ] \begin{equation} \mathcal{L}(\lambda_{\rm PGM}, \theta_{NN}, \theta) = \mathbb{E} _{q(\theta_{\rm PGM} | \lambda_ {\rm PM})} [\mathcal{L}_{\rm SIN}(\theta, \phi)] - \mathbb{E} _{\rm KL} [q(\theta_{\rm PGM} | \lambda_ {\rm PM}) || p(\theta_{\rm PGM} | \lambda_ {\rm PM})] \end{equation} L(λPGM,θNN,θ)=Eq(θPGMλPM)[LSIN(θ,ϕ)]EKL[q(θPGMλPM)∣∣p(θPGMλPM)]
推理算法流程图如下。
SVAE算法伪代码
由于算法支持结构化、摊销和自然梯度(SAN)更新,因此称之为 SAN 算法。更新方便地将 PGM 和 DNN 计算分开。步骤 3-6 操作 PGM 部分,我们可以使用现有的 PGM 实现。第 7 步操作 DNN 部分,我们可以重复使用 VAE 实现。算法不仅概括了以前的工作,还通过重用现有软件简化了实现过程。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 变分推断(variational inference)是一种用于在概率模型中近似推断潜在变量的方法。在概率模型中,我们通常有观测数据和潜在变量两个部分。我们希望通过观测数据集来估计潜在变量的后验分布。然而,由于计算复杂度的限制,我们无法直接计算后验分布。 变分推断通过近似后验分布为一个简化的分布来解决这个问题。它会选择一个与真实后验分布相似的分布族,然后通过最小化这个分布与真实后验分布之间的差异来得到一个最佳的近似分布。这个问题可以转化为一个最优化问题,通常使用变分推断的一个常用方法是最大化证据下界(evidence lower bound,ELBO)来近似后验分布。 变分推断的一个重要特点是可以处理大规模和复杂的概率模型。由于近似分布是通过简化的分布族来表示的,而不是直接计算后验分布,所以它可以减少计算复杂度。此外,变分推断还可以通过引入额外的约束或假设来进一步简化近似分布,提高计算效率。 然而,变分推断也有一些缺点。因为近似分布是通过简化的分布族来表示的,所以它会引入一定的偏差。此外,变分推断的结果依赖于所选择的分布族,如果分布族选择不合适,可能会导致较差的近似结果。 总之,变分推断是一种用于近似计算概率模型中后验分布的方法,通过选择一个与真实后验分布相似的分布族,并最小化与真实后验分布之间的差异来得到一个最佳的近似分布。它具有处理大规模和复杂模型的能力,但也有一些局限性。 ### 回答2: 转变分推断(variational inference)是一种用于近似求解复杂概率模型的方法。它的核心思想是将复杂的后验分布近似为一个简单的分布,通过最小化这两个分布之间的差异来求解模型的参数。 变分推断通过引入一个简单分布(称为变分分布)来近似复杂的后验分布。这个简单分布通常属于某个已知分布族,例如高斯分布或指数分布。变分推断通过最小化变分分布和真实后验分布之间的差异,来找到最优的参数。 为了实现这一点,变分推断使用了KL散度(Kullback-Leibler divergence)这一概念。KL散度是用来衡量两个概率分布之间的差异的指标。通过最小化变分分布与真实后验分布之间的KL散度,我们可以找到一个最优的变分分布来近似真实后验分布。 变分推断的步骤通常包括以下几个步骤: 1. 定义变分分布:选择一个简单的分布族作为变分分布,例如高斯分布。 2. 定义目标函数:根据KL散度的定义,定义一个目标函数,通常包括模型的似然函数和变分分布的熵。 3. 最优化:使用数值方法(例如梯度下降法)最小化目标函数,找到最优的变分参数。 4. 近似求解:通过最优的变分参数,得到近似的后验分布,并用于模型的推断或预测。 变分推断的优点是可以通过选择合适的变分分布,来控制近似精度和计算复杂度之间的平衡。它可以应用于各种概率模型和机器学习任务,例如潜在变量模型、深度学习和无监督学习等。 总而言之,转变分推断是一种用于近似求解复杂概率模型的方法,通过近似后验分布来求解模型的参数。它通过最小化变分分布与真实后验分布之间的差异来实现近似求解。这个方法可以应用于各种概率模型和机器学习任务,具有广泛的应用价值。 ### 回答3: 变分推断(Variational Inference)是一种用于概率模型中的近似推断方法。它的目标是通过近似的方式来近似估计概率分布中的某些未知参数或隐变量。 在概率模型中,我们通常希望得到后验概率分布,即给定观测数据的情况下,未知参数或隐变量的概率分布。然而,由于计算复杂性的原因,我们往往无法直接计算后验分布。 变分推断通过引入一个称为变分分布的简化分布,将原问题转化为一个优化问题。具体来说,我们假设变分分布属于某个分布族,并通过优化一个目标函数,使得变分分布尽可能接近真实的后验分布。 目标函数通常使用卡尔贝克-勒勒散度(Kullback-Leibler divergence)来度量变分分布与真实后验分布之间的差异。通过最小化这个目标函数,我们可以找到最优的近似分布。在这个优化问题中,我们通常将问题转化为一个变分推断问题,其中我们需要优化关于变分分布的参数。 变分推断的一个优点是可以应用于各种类型的概率模型,无论是具有连续随机变量还是离散变量。此外,变分推断还可以解决复杂的后验推断问题,如变分贝叶斯方法和逐步变分推断等。 然而,变分推断也存在一些限制。例如,它通常要求选择一个合适的变分分布族,并且该族必须在计算上可以处理。此外,变分推断还可能导致近似误差,因为我们将问题简化为一个优化问题,可能会导致对真实后验分布的一些信息丢失。 总而言之,变分推断是一种强大的近似推断方法,可以用于概率模型中的参数和隐变量的估计。它通过引入变分分布来近似计算复杂的后验概率分布,从而转化为一个优化问题。然而,需要注意选择合适的变分分布族和可能的近似误差。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值