【隐变量(潜在变量)模型】硬核介绍

回忆:上一节我们介绍了贝叶斯推断的几种方法,那么贝叶斯推断的目的是什么?

当我们知晓了后验分布 p ( θ ∣ y ) p(\theta|\mathbf{y}) p(θy)后,就可以以此为基础得到贝叶斯后验预测分布 p ( y ~ ∣ y ) p(\tilde{y}|\mathbf{y}) p(y~y)。因为 y ~ \tilde{y} y~ y y y 在给定 θ \theta θ 时条件独立( y → θ → y ~ y\rightarrow\theta\rightarrow\tilde{y} yθy~),所以 f ( y ~ , θ ∣ y ) = f ( y ~ ∣ θ , y ) p ( θ ∣ y ) = f ( y ~ ∣ θ ) p ( θ ∣ y ) f(\tilde{y},\theta|\mathbf{y})=f(\tilde{y}|\theta,\mathbf{y})p(\theta|\mathbf{y})=f(\tilde{y}|\theta)p(\theta|\mathbf{y}) f(y~,θy)=f(y~θ,y)p(θy)=f(y~θ)p(θy),通过积分将 θ \theta θ 边缘化我们得到了 p ( y ~ ∣ y ) = ∫ f ( y ~ ∣ θ ) p ( θ ∣ y ) d θ p(\tilde{y}|\mathbf{y})=\int f(\tilde{y}|\theta)p(\theta|\mathbf{y})d\theta p(y~y)=f(y~θ)p(θy)dθ

问题:当我们不知道观测数据 x = { x 1 , x 2 , ⋯   , x n } \pmb{x}=\{x_1,x_2,\cdots,x_n\} x={x1,x2,,xn} 抽样于什么分布时,即未知的似然函数 L ( θ , x ) = p ( x ∣ θ ) L(\theta,\pmb{x})=p(\pmb{x}|\theta) L(θ,x)=p(xθ)。此时我们无法通过常规贝叶斯推断求得后验分布,也无法得到后验预测分布。

1.参数模型

基于上述问题,我们希望用一个参数模型 p W ( x ) p_W(\pmb{x}) pW(x) 来尽可能拟合似然函数 p ( x ∣ θ ) p(\pmb{x}|\theta) p(xθ)。而模型 p W ( x ) p_W(\pmb{x}) pW(x) 一般是一个深度神经网络,因为DNN可以拟合任意函数

有了模型 p W ( x ) p_W(\pmb{x}) pW(x) 和观测数据 x = { x 1 , x 2 , ⋯   , x n } \pmb{x}=\{x_1,x_2,\cdots,x_n\} x={x1,x2,,xn},我们可以通过最大似然法ML来找到最优的模型参数: W ∗ = arg ⁡ max ⁡ W ∑ i = 1 n log ⁡ p W ( x ) W^*=\arg \max\limits_{W}\sum_{i=1}^n\log p_W(\pmb{x}) W=argWmaxi=1nlogpW(x)

2.潜在变量(Latent Variable)

在实际情况下,有一些潜在变量可能无法直接通过观测数据观察到,于是我们引入潜在变量 z \pmb{z} z 来表示。

【举个例子】:观察下图,表面上我们观测到的数据是一堆点 x = { x 1 , x 2 , ⋯   , x n } \pmb{x}=\{x_1,x_2,\cdots,x_n\} x={x1,x2,,xn},但实际上我们可以直观的发现这些点以某种概率采样自四个不同的分布(假设都是高斯分布)。而潜在变量 z i z_i zi 控制了 x i x_i xi 从哪个分布中采样: x i ∼ N ( μ z i , σ 0 2 ) x_i\sim N(\mu_{z_i},\sigma_0^2) xiN(μzi,σ02),为了简化问题,假设 σ 0 \sigma_0 σ0已知。于是,潜在变量 z i z_i zi 表示观测变量 x i x_i xi 对应类别的序号。

在这里插入图片描述

3.潜变量模型(Latent Variable Model)

【一个重要假设】:每个观测变量只与某个特定的潜在变量直接相关。

3.1 目标:最大边际似然

因为 z \pmb{z} z 无法直接观测,所以我们无法通过最大联合似然得到最优的模型参数: W ∗ = arg ⁡ max ⁡ W ∑ i = 1 n log ⁡ p W ( x i , z i ) W^*=\arg \max\limits_{W}\sum_{i=1}^n\log p_W(x_i,z_i) W=argWmaxi=1nlogpW(xi,zi)。所以必须对 z \pmb{z} z 进行边缘化,通过积分,将所有可能的 z \pmb{z} z 的影响考虑进去。于是我们得到了边际似然: p W ( x ) = ∫ z p W ( x , z ) d z = ∫ z p W ( x ∣ z ) p ( z ) d z p_W(\pmb{x})=\int_zp_W(\pmb{x},\pmb{z})d\pmb{z}=\int_zp_W(\pmb{x}|\pmb{z})p(\pmb{z})d\pmb{z} pW(x)=zpW(x,z)dz=zpW(xz)p(z)dz,随后我们通过最大边际似然找到最优的模型参数: W ∗ = arg ⁡ max ⁡ W ∑ i = 1 n log ⁡ p W ( x i ) W^*=\arg \max\limits_{W}\sum_{i=1}^n\log p_W(x_i) W=argWmaxi=1nlogpW(xi)。其中, p W ( x ∣ z ) p_W(\pmb{x}|\pmb{z}) pW(xz) 称为条件似然(模型的输出), p ( z ) p(\pmb{z}) p(z)是潜变量的先验分布。

3.2 难点:边际似然的求解

但问题是,边际似然 p W ( x ) = E z ∼ p ( z ) [ p W ( x ∣ z ) ] p_W(\pmb{x})=E_{\pmb{z}\sim p(\pmb{z})}[p_W(\pmb{x}|\pmb{z})] pW(x)=Ezp(z)[pW(xz)] 的求解十分棘手!!这是因为边缘化积分可能没有解析解,尤其是对于复杂模型,计算这个积分是非常棘手的。

观察边际似然: p W ( x ) = ∫ z p W ( x ∣ z ) p ( z ) d z p_W(\pmb{x})=\int_zp_W(\pmb{x}|\pmb{z})p(\pmb{z})d\pmb{z} pW(x)=zpW(xz)p(z)dz,结合贝叶斯公式: p W ( z ∣ x ) = p W ( x ∣ z ) p ( z ) p W ( x ) p_W(\pmb{z}|\pmb{x})=\frac{p_W(\pmb{x}|\pmb{z})p(\pmb{z})}{p_W(\pmb{x})} pW(zx)=pW(x)pW(xz)p(z),可见在潜变量模型中,我们可以通过估计后验分布 p W ( z ∣ x ) p_W(\pmb{z}|\pmb{x}) pW(zx) 来近似边际似然 p W ( x ) p_W(\pmb{x}) pW(x)

3.3 办法:通过估计后验分布近似边际似然

可以证明: p W ( z i ∣ x , z − i ) = p W ( z i ∣ x i ) p_W(z_i|\pmb{x},z_{-i})=p_W(z_i|x_i) pW(zix,zi)=pW(zixi)。这意味着,潜在变量 z i z_i zi 的后验分布只依赖于对应的观测数据 x i x_i xi ,而与其他潜在变量 z − i z_{-i} zi 和观测变量 x − i x_{-i} xi 无关。

因此,后验分布 p W ( z ∣ x ) = ∏ i = 1 n p W ( z i ∣ x i ) p_W(\pmb{z}|\pmb{x})=\prod_{i=1}^np_W(z_i|x_i) pW(zx)=i=1npW(zixi)对每一对变量 ( x i , z i ) (x_i,z_i) (xi,zi),我们使用均场变分推断: p W ( z i ∣ x i ) ≈ q ϕ i ( z i ) p_W(z_i|x_i)\approx q_{\phi_i}(z_i) pW(zixi)qϕi(zi),通过最大化ELBO找到最优的 q ϕ i ( z i ) q_{\phi_i}(z_i) qϕi(zi)。至此,便能通过估计后验分布 p W ( z ∣ x ) p_W(\pmb{z}|\pmb{x}) pW(zx) 来近似边际似然。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值