《神经网络与深度学习》-深度生成模型

最新推荐文章于 2024-09-06 14:13:16 发布

你电吴彦祖

最新推荐文章于 2024-09-06 14:13:16 发布

阅读量1.3k

点赞数 1

分类专栏：《神经网络与深度学习》文章标签：神经网络

本文链接：https://blog.csdn.net/Passenger_zhang/article/details/108303320

版权

本文介绍了深度生成模型，重点讲解了变分自编码器（VAE）和生成对抗网络（GAN）。VAE通过引入隐变量，利用推断网络和生成网络进行建模，目标是最大化证据下界。GAN则是通过判别网络与生成网络的对抗训练，使生成网络能够产生与真实数据分布一致的样本。文章还讨论了GAN的训练挑战和模型坍塌问题，以及W-GAN作为改进模型的Wasserstein距离应用。

摘要由CSDN通过智能技术生成

深度生成模型

概率生成模型（Probabilistic Generative Model）简称 生成模型，指一系列用于 随机生成可观测数据的模型。假设在连续或离散的高维空间

X

中，存在一个随机向量

X

服从一个未知的数据分布

p_r(\pmb{x}),x \in X

。生成模型根据一些可观测的样本

\pmb{x}^{(1)},\cdots,\pmb{x}^{(N)}

来学习一个参数化模型

p_{\theta}(\pmb{x})

来近似未知分布

p_{r}(\pmb{x})

,并且可以用这个模型生成一些样本，使得生成样本和真实样本尽可能地相似。生成模型包括两基本功能： 概率密度估计和 生成样本（即采样）。下图以手写数字图像为例，给出生成模型的两功能：左图表示手写数字图像的真实分布

p_{r}(\pmb{x})

以及从中采样的真实样本，右图表示估计出了分布

p_{\theta}(\pmb{x})

以及从中采样的生成样本。

在这里插入图片描述

生成模型可用来建模不同的数据：如图像、文本、声音。但对于高维空间中的复杂分布，密度估计和生成样本都不容易实现：一是高维随机向量难以建模，需通过一些条件独立性来简化模型，而是给定一个已建模的复杂分布，也缺乏有效的采样方法。
深度生成模型是利用深度神经网络可以近似任意函数的能力，来建模一个复杂分布 $p_{r}(\pmb{x})$ ，或直接生成符合分布 $p_{r}(\pmb{x})$ 的样本。
本节先介绍概率生成模型的基本概念，然后介绍两种深度生成模型：变分自编码器和生成对抗网络

1. 概率生成模型

生成模型有两个基本功能：密度估计和生成样本

1.1 密度估计

给定一组数据 $D=\{\pmb{x}^{(n)}\}_{n=1}^{N}$ ，假设它们都是独立地从相同的概率密度函数为 $p_{r}(\pmb{x})$ 的未知分布中产生，密度估计（Density Estimation）是根据数据集D来估计其概率密度函数 $p_{\theta}(\pmb{x})$

密度估计是一类无监督学习问题，如在手写体数字图像识别中的密度估计问题中，将图像表示为一个随机向量 $\pmb{X}$ ,每一维都表示一个像素值，假设手写体数字图像都服从一个未知的分布 $p_{\theta}(\pmb{x})$ ，希望通过一些观测样本来估计其分布。
但手写体数字图像中不同像素之间存在复杂的依赖关系（比如相邻像素的颜色一般是相似的），很难用一个明确的图模型来描述依赖关系，所以直接建模 $p_{\theta}(\pmb{x})$ 比较困难。
故，通过引入隐变量 $\pmb{z}$ 来简化模型，这样概率密度估计问题转化为估计变量 $(\pmb{x},\pmb{z})$ 的两个局部条件概率 $p_{\theta}(\pmb{z})$ 和 $p_{\theta}(\pmb{x}|\pmb{z})$ .一般为了简化模型，假设隐变量 $\pmb{z}$ 的先验分布为标准高斯分布 $N(0,\pmb{I})$ 。隐变量 $\pmb{z}$ 的每一维之间都是独立的，在这个假设下，先验分布 $\pmb{z;\theta}$ 中没有参数，因此，密度估计的重点是估计条件分布 $p(\pmb{x}|\pmb{z};\theta)$ .

如果要建模含隐变量的分布，需利用EM算法来进行密度估计，在EM算法中，需要估计条件分布 $p(\pmb{x}|\pmb{z};\theta)$ 以及近似后验分布 $p(\pmb{z}|\pmb{x};\theta)$ .当这两个分布比较复杂时，可以用神经网络来进行建模，这就是变分自编码器的思想。
在这里插入图片描述

1.2 生成样本

生成样本就是给定一个概率密度函数为 $p_{\theta}(\pmb{x})$ 的分布，生成一些服从这个分布的样本，也称为“采样”。
对于上图中的图模型，在得到两个变量的局部条件概率 $p_{\theta}(\pmb{z})$ 和 $p_{\theta}(\pmb{x}|\pmb{z})$ 之后，我们就可以生成数据 $\pmb{x}$ ，具体过程可以分为两步进行：

根据隐变量的先验分布 $p_{\theta}(\pmb{z})$ 进行采样，得到样本 $\pmb{z}$
根据条件分布 $p_{\theta}(\pmb{x}|\pmb{z})$ 进行采样，得到样本 $\pmb{x}$

为便于采样，通常 $p_{\theta}(\pmb{x}|\pmb{z})$ 不能太过复杂。因此，另一种生成样本的思想是从一个简单分布 $p(\pmb{z}),z \in Z$ （比如标准正太分布）中采集一个样本 $\pmb{z}$ ，并利用一个深度神经网络 $\to X$ 使得 $g(\pmb{z})$ 服从 $p_r(\pmb{x})$ ，这样，我们就可以避免密度估计问题，并有效降低生成样本的难度，即生成对抗网络的思想。

1.3 应用于监督学习

除了生成样本外，生成模型也可用于监督学习。监督学习的目标是建模样本 $\pmb{x}$ 和输出标签 $y$ 之间的条件概率分布 $p(y|\pmb{x})$ ，根据贝叶斯公式：
在这里插入图片描述
我们可以将监督学习问题转换为联合概率分布 $p(\pmb{x},y)$ 的密度估计问题
上图是带标签的生成模型的图模型表示，可以用于监督学习，在监督学习中，典型的生成模型有朴素贝叶斯分类器、隐马尔科夫模型。

判别模型 和生成模型相对应的另一类监督学习模型是判别模型（Discriminative Model）。判别模型直接建模条件概率分布 $p(y|\pmb{x})$ ，并不建模其联合概率分布 $p(\pmb{x},y)$ 。常见的判别模型有 Logistic回归、支持向量机、神经网络等。由生成模型可以得到判别模型，由判别模型得不到生成模型。

2. 变分自编码器

2.1 含隐变量的生成模型

假设一个生成模型中包含隐变量，即有部分变量时不可观测的，其中观测变量 $\pmb{X}$ 是一个高维空间 $X$ 中的随机向量，隐变量 $\pmb{Z}$ 是一个相对低维空间 $Z$ 中的随机向量。
在这里插入图片描述
这个生成模型的联合概率密度函数可以分解为：

其中 $p(\pmb{z};\theta)$ 为隐变量 $\pmb{z}$ 先验分布的概率密度函数， $p(\pmb{x}|\pmb{z};\theta)$ 为已知 $\pmb{z}$ 时观测变量 $\pmb{x}$ 的条件概率密度函数， $\theta$ 表示两个密度函数的参数。一般情况下，我们可以假设 $p(\pmb{z};\theta)$ 和 $p(\pmb{x}|\pmb{z};\theta)$