机器学习笔记之变分自编码器(一)模型表示

机器学习笔记之变分自编码器——模型表示

引言

本节将介绍变分自编码器(Variational AutoEncoder,VAE)。

回顾:高斯混合模型

高斯混合模型本质上是 K \mathcal K K个高斯分布的混合分布。它的概率图结构表示如下:
高斯混合模型——概率图结构

其中 Z \mathcal Z Z是一个离散型随机变量,一共包含 K \mathcal K K种选择结果(服从 Categorical \text{Categorical} Categorical分布);并且隐变量 Z \mathcal Z Z的每个取值 z j ∈ Z z_j \in \mathcal Z zjZ唯一对应一个高斯分布 N ( μ j , Σ j ) \mathcal N(\mu_j,\Sigma_j) N(μj,Σj)
并满足 ∑ k = 1 K = 1 \sum_{k=1}^{\mathcal K} = 1 k=1K=1.

Z \mathcal Z Z z 1 z_1 z1 z 2 z_2 z2 ⋯ \cdots z K z_{\mathcal K} zK
P ( Z ) \mathcal P(\mathcal Z) P(Z) p 1 p_1 p1 p 2 p_2 p2 ⋯ \cdots p K p_{\mathcal K} pK
P ( x ∣ Z ) \mathcal P(x \mid \mathcal Z) P(xZ) N ( μ 1 , Σ 1 ) \mathcal N(\mu_1,\Sigma_1) N(μ1,Σ1) N ( μ 2 , Σ 2 ) \mathcal N(\mu_2,\Sigma_2) N(μ2,Σ2) ⋯ \cdots N ( μ K , Σ K ) \mathcal N(\mu_{\mathcal K},\Sigma_{\mathcal K}) N(μK,ΣK)

变分自编码器——概率图视角介绍

从模型名称观察:

  • 变分自编码器中的变分自然是指变分推断(Variational Inference,VI);这个概念来自于概率图模型对变量(隐变量)的条件概率进行求解。
  • 变分自编码器中的自编码器(AutoEncoder,AE)来自于前馈神经网络结构。不同于概率图模型,它是一种计算图结构;并且它的底层逻辑是通用逼近定理,通过各网络层的参数对概率分布进行表达。

因此,变分自编码器是一种典型的:

  • 概率图、计算图相结合的模型
  • 它也是一个隐变量模型(Latent Variable Model,LVM)。它的概率图结构表示如下:
    隐变量模型——概率图结构
  • 它也是一个静态模型(Static Model)。
    这里主要是区别于‘隐马尔可夫模型’系列的动态模型(Dynamic Model)

在之前的介绍中,提到过一种简单的静态隐变量模型——高斯混合模型(Gaussian Mixture Model,GMM),观察高斯混合模型与变分自编码器之间的关联关系。

如果从若干个高斯分布混合的角度观察高斯混合模型,那么变分自编码器可看作 无限个高斯分布混合。在高斯混合模型中,隐变量 Z \mathcal Z Z被假设为 1 1 1维、服从 Categorical \text{Categorical} Categorical分布的离散型随机变量

而高斯混合模型常用于处理无监督的聚类任务。换句话说,因为隐变量 Z \mathcal Z Z的假设,或者说它的复杂程度过于简单,使得高斯混合模型只能处理 浅层特征。相反,如果给定一张图片,去执行图像识别或者是目标检测 GMM \text{GMM} GMM显然是无法实现的。
如何从探索深层特征?这需要提高隐变量 Z \mathcal Z Z复杂程度

  • (特征维度角度的扩展) Z \mathcal Z Z 1 1 1维特征 ⇒ \Rightarrow 高维特征
    需要注意的是,这里的下标表示随机变量的维度下标,不同于上面的取值下标, M \mathcal M M表示维度数量。
    Z = ( z 1 , z 2 , ⋯   , z M ) T \mathcal Z = (z_1,z_2,\cdots,z_{\mathcal M})^T Z=(z1,z2,,zM)T
  • (随机变量性质角度的扩展) Z \mathcal Z Z离散型随机变量 ⇒ \Rightarrow 连续型随机变量

这里不妨假设 Z \mathcal Z Z服从高斯分布
均值为0,协方差矩阵为标准单位矩阵 I M × M \mathcal I_{\mathcal M \times \mathcal M} IM×M.
Z ∼ N ( 0 , I M × M ) \mathcal Z \sim \mathcal N(0,\mathcal I_{\mathcal M \times \mathcal M}) ZN(0,IM×M)
在给定隐变量 Z \mathcal Z Z的条件下,样本 x x x后验分布 x ∣ Z x \mid \mathcal Z xZ可分为两种情况:
这里仅对 x x x是连续型随机变量进行讨论。

  • 如果 x x x离散型随机变量,那么 x x x将服从 Categorical \text{Categorical} Categorical分布或者是伯努利分布(视情况而定);
    这里需要注意的是,这个 Categorical \text{Ca
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

静静的喝酒

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值