机器学习笔记之变分自编码器——模型表示
引言
本节将介绍变分自编码器(Variational AutoEncoder,VAE)。
回顾:高斯混合模型
高斯混合模型本质上是 K \mathcal K K个高斯分布的混合分布。它的概率图结构表示如下:
其中 Z \mathcal Z Z是一个离散型随机变量,一共包含 K \mathcal K K种选择结果(服从 Categorical \text{Categorical} Categorical分布);并且隐变量 Z \mathcal Z Z的每个取值 z j ∈ Z z_j \in \mathcal Z zj∈Z均唯一对应一个高斯分布 N ( μ j , Σ j ) \mathcal N(\mu_j,\Sigma_j) N(μj,Σj):
并满足
∑ k = 1 K = 1 \sum_{k=1}^{\mathcal K} = 1 ∑k=1K=1.
Z \mathcal Z Z | z 1 z_1 z1 | z 2 z_2 z2 | ⋯ \cdots ⋯ | z K z_{\mathcal K} zK |
---|---|---|---|---|
P ( Z ) \mathcal P(\mathcal Z) P(Z) | p 1 p_1 p1 | p 2 p_2 p2 | ⋯ \cdots ⋯ | p K p_{\mathcal K} pK |
P ( x ∣ Z ) \mathcal P(x \mid \mathcal Z) P(x∣Z) | N ( μ 1 , Σ 1 ) \mathcal N(\mu_1,\Sigma_1) N(μ1,Σ1) | N ( μ 2 , Σ 2 ) \mathcal N(\mu_2,\Sigma_2) N(μ2,Σ2) | ⋯ \cdots ⋯ | N ( μ K , Σ K ) \mathcal N(\mu_{\mathcal K},\Sigma_{\mathcal K}) N(μK,ΣK) |
变分自编码器——概率图视角介绍
从模型名称观察:
- 变分自编码器中的变分自然是指变分推断(Variational Inference,VI);这个概念来自于概率图模型对变量(隐变量)的条件概率进行求解。
- 变分自编码器中的自编码器(AutoEncoder,AE)来自于前馈神经网络结构。不同于概率图模型,它是一种计算图结构;并且它的底层逻辑是通用逼近定理,通过各网络层的参数对概率分布进行表达。
因此,变分自编码器是一种典型的:
- 概率图、计算图相结合的模型;
- 它也是一个隐变量模型(Latent Variable Model,LVM)。它的概率图结构表示如下:
- 它也是一个静态模型(Static Model)。
这里主要是区别于‘隐马尔可夫模型’系列的
动态模型(Dynamic Model)。
在之前的介绍中,提到过一种简单的静态隐变量模型——高斯混合模型(Gaussian Mixture Model,GMM),观察高斯混合模型与变分自编码器之间的关联关系。
如果从若干个高斯分布混合的角度观察高斯混合模型,那么变分自编码器可看作 无限个高斯分布混合。在高斯混合模型中,隐变量 Z \mathcal Z Z被假设为 1 1 1维、服从 Categorical \text{Categorical} Categorical分布的离散型随机变量。
而高斯混合模型常用于处理无监督的聚类任务。换句话说,因为隐变量 Z \mathcal Z Z的假设,或者说它的复杂程度过于简单,使得高斯混合模型只能处理 浅层特征。相反,如果给定一张图片,去执行图像识别或者是目标检测, GMM \text{GMM} GMM显然是无法实现的。
如何从探索深层特征?这需要提高隐变量 Z \mathcal Z Z的复杂程度:
- (特征维度角度的扩展) Z \mathcal Z Z: 1 1 1维特征 ⇒ \Rightarrow ⇒ 高维特征;
需要注意的是,这里的下标表示随机变量的维度下标,不同于上面的取值下标,
M \mathcal M M表示维度数量。
Z = ( z 1 , z 2 , ⋯ , z M ) T \mathcal Z = (z_1,z_2,\cdots,z_{\mathcal M})^T Z=(z1,z2,⋯,zM)T - (随机变量性质角度的扩展) Z \mathcal Z Z:离散型随机变量 ⇒ \Rightarrow ⇒ 连续型随机变量。
这里不妨假设 Z \mathcal Z Z服从高斯分布:
均值为
0,协方差矩阵为标准单位矩阵
I M × M \mathcal I_{\mathcal M \times \mathcal M} IM×M.
Z ∼ N ( 0 , I M × M ) \mathcal Z \sim \mathcal N(0,\mathcal I_{\mathcal M \times \mathcal M}) Z∼N(0,IM×M)
在给定隐变量 Z \mathcal Z Z的条件下,样本 x x x的后验分布 x ∣ Z x \mid \mathcal Z x∣Z可分为两种情况:
这里仅对
x x x是连续型随机变量进行讨论。
- 如果 x x x是离散型随机变量,那么 x x x将服从 Categorical \text{Categorical} Categorical分布或者是伯努利分布(视情况而定);
这里需要注意的是,这个
Categorical \text{Ca