VAE训练流程

Royal♢

已于 2024-09-18 15:34:59 修改

阅读量1.3k

点赞数 15

文章标签：机器学习人工智能算法

于 2024-07-13 20:27:24 首次发布

本文链接：https://blog.csdn.net/qq_61957994/article/details/140405672

版权

基本概念的辨析

1. 维度

维度的含义：
- 每一个独立的数据是一个维度。
- 对于灰度图像，每个像素是一个维度。对于RGB三通道图像，每个像素是三个维度。
具体示例：
- 对于一张28x28的灰度图像，每个像素点可以用一个数值（通常在0到255之间）表示。这张图像可以展平为一个784维的向量，是一组784维的数据：
  $\mathbf{x} = [x_1, x_2, \ldots, x_{784}]$
- 其中，每个 $x_i$ 是图像中第 $i$ 个像素的灰度值。

2. 样本

样本的含义：
- 样本是数据集中具体的一组数据。对于图像数据集来说，一个样本就是一张具体的图片。
具体示例：
- 在MNIST数据集中，每张28x28的手写数字图片就是一个样本。
- 数据集中的样本可能是二维数组或矩阵形式表示的图像，也可以展平为一维向量进行处理。
- 784维的一组数据构成一个样本，即一张展平的28x28图像。

3. 分布

分布的含义：
- 分布描述的是随机变量（例如像素值）不同取值的概率分布情况。
- 图像数据中的分布可以描述为多维分布，描述整个图像的像素值联合起来的概率分布。
- 对图片的概率分布采样一个样本，得到的就是一个具体的图片。
具体示例：
- 单个像素的分布：假设每个像素值服从某个概率分布（如高斯分布或均匀分布），那么可以表示为 $p(x_i)$ 。
- 多维高斯分布：假设整个图像的像素值服从一个多维高斯分布，可以用均值向量 $\mu$ 和协方差矩阵 $\Sigma$ 描述：
  $p(\mathbf{x}) = \mathcal{N}(\mathbf{x}|\mu, \Sigma)$
  其中， $\mathbf{x}$ 是一个784维向量， $\mu$ 是784维的均值向量， $\Sigma$ 是 $784 \times 784$ 的协方差矩阵。

这些概念对于理解深度学习中对图片数据的处理非常重要。

生成式模型原理的通俗介绍

生成模型，如变分自编码器（VAE）和Denoising Diffusion Probabilistic Models（DDPM），主要通过两个阶段实现其功能：训练和生成。在训练阶段，模型利用大量数据来学习数据的分布特征，这些特征被编码在模型参数中，如VAE中的 $\phi$ 和 $\theta$ ，或DDPM中的 $\theta$ 。学习过程涉及到对数据结构的理解和内部表示的建立。在生成阶段，模型使用这些学习到的参数，将随机的潜在变量或噪声转换成具有特定数据分布特征的新数据。这使得生成模型能够创造出与训练数据相似但又是全新的输出，表现出其强大的数据生成能力。这种方式使得生成模型在多媒体、艺术创作和其他需要内容生成的应用中尤为有用。

VAE简介

变分自编码器（VAE）通过将高维数据映射到低维隐空间，并保留数据的主要特征，实现了以下用途：

数据生成：从隐空间中采样，并通过解码器生成与训练数据分布相似的新数据。
数据压缩：将高维数据压缩到低维隐变量表示，有效地捕捉数据的主要特征。
缺失数据填补：基于隐空间表示填补缺失的数据部分。
数据去噪：从噪声数据中恢复出干净的原始数据。

对于映射到低维隐空间的理解

每个样本 $x_i$ 对应一个特定的隐变量分布 $z_i$ ，这个隐变量的均值和方差由样本 $x_i$ 决定。它的维度低于 $x_i$ 。
隐变量空间的维度是固定的（例如10维），不随输入样本的维度变化。
总体隐变量分布是一个和 $z_i$ 相同形式的分布，但其均值和方差是由整个样本集 $x$ 决定的，反映了数据集的整体特征。

所以，虽然每个样本都有其特定的隐变量分布，但整个样本集的隐变量仍然可以看作是位于一个固定维度的潜在空间中，这个空间的结构由整个数据集的特性决定。

训练流程

1. 前向传播：

输入真实样本 $x$ 。
编码器（通常是一个神经网络）接收 $x$ 并输出潜在变量 $z$ 的均值 $\mu_\phi(x)$ 和方差 $\sigma_\phi^2(x)$ 。
对于每一个样本 $x^{(\ell)}$ ，会生产一个对应的隐编码 $z$ 的高斯分布 $q_\phi(z|x^{(\ell)})=\mathcal{N}(z|\mu_\phi(x^{(\ell)}),\sigma^2_\phi(x^{(\ell)})I)$ 。从中可采样潜在变量 $z^{(\ell)}$ 。

2. 重建：

解码器（通常是另一个神经网络）接收采样得到的潜在变量 $z^{(\ell)}$ 并输出重建样本 $\hat{x^{(\ell)}} = \text{decode}_\theta(z^{(\ell)})$ 。（这是一个样本而非一个分布。因为重建出来的是一张确定的图片）重建样本 $\hat{x^{(\ell)}}$ 是在 $z$ 空间取样后重建的。
这个重建过程与解码器的参数 $\theta$ 有关，参数 $\theta$ 决定了 $\text{decode}_\theta(z^{(\ell)})$ （即 $\hat{x^{(\ell)}}$ ）的值。

3.优化目标

变分推理的核心目标是通过优化变分分布 $q (z ∣ x)$ 来近似复杂的后验分布 $p (z ∣ x)$ ，从而使得对数据分布 $p (x)$ 的逼近更加准确（贝叶斯公式）。这种逼近能提高模型对数据的表达能力，确保在特定任务中的表现更好和更准确。
这个目标可以通过最大化证据下界（ELBO）实现，公式如下：
$\text{ELBO} = \mathbb{E}_{q(z|x)} [\log p(x|z)] - \text{KL}(q(z|x) || p(z))$

ELBO包括两个部分：

重建误差项（Reconstruction Error Term）：
- 作用：重建误差项的优化使得从潜在变量 $z$ 重建的 $x$ 尽可能接近原始输入数据 $x$ 。
- 解释：这一部分通过期望似然 $\mathbb{E}_{q(z|x)} [\log p(x|z)]$ 来度量。这意味着我们希望从 $z$ 生成的 $x$ 与真实的 $x$ 之间的差异最小。
- 结果：最大化这一项能够让变分分布 $q (z ∣ x)$ 最接近真实的后验分布 $p (z ∣ x)$ ，使得潜在变量 $z$ 能够很好地保留输入数据 $x$ 的信息，从而实现精确的重建。
KL散度项（KL Divergence Term）：
- 作用：KL散度项的优化使得变分分布 $q (z ∣ x)$ 接近先验分布 $p (z)$ 。
- 解释：这一部分通过KL散度 $-\text{KL}(q(z|x) || p(z))$ 来度量。这意味着我们希望 $q (z ∣ x)$ 不要偏离 $p (z)$ 太远。
- 结果：最大化这一项（最小化KL散度项）有助于正则化模型，防止过拟合，提高模型的泛化能力。这确保了即使在训练数据之外，模型也能表现良好。

4. 计算重建误差（使用蒙特卡洛法）：

使用蒙特卡洛方法对潜在变量 $z$ 进行采样并重建，从而计算期望值：
$\mathbb{E}_{q_\phi(z|x)}[\log p_\theta(x|z)] \approx \frac{1}{L} \sum_{\ell=1}^L \log p_\theta(x^{(\ell)}|z^{(\ell)})$
这个公式表示在 $x$ 生成的 $z$ 的分布中采样，再由采样值重建 $x$ 并计算误差的过程。
其中 $x^{(\ell)}$ 是训练数据集中的第 $\ell$ 个样本， $z^{(\ell)}$ 是 $x^{(\ell)}$ 经过编码器产生的 $z$ 分布中的一个采样值， $z^{(\ell)} \sim \mathcal{N}(z|\mu_\phi(x^{(\ell)}), \sigma^2_\phi(x^{(\ell)})I)$ 。
$\log p_\theta(x^{(\ell)}|z^{(\ell)})$ 可用下面的公式计算：
$\log p_\theta(\mathbf{x}|\mathbf{z}) = -\frac{\|\mathbf{x} - \hat{\mathbf{x}}\|^2}{2\sigma_{\text{dec}}^2}$

这一项越大说明由 $x^{(\ell)}$ 产生的 $z^{(\ell)}$ 经过解码器恢复 $x^{(\ell)}$ 的误差越小，解码器越好。

5. 计算先验匹配：

$D_{\text{KL}}(q_\phi(z|x^{(\ell)}) \| p(z)) = \frac{1}{2} \left( (\sigma_\phi^2(x^{(\ell)}))^d + \mu_\phi(x^{(\ell)})^T \mu_\phi(x^{(\ell)}) - d - \log(\sigma_\phi^2(x^{(\ell)})) \right)$

这一项越小说明生成的 $z$ 越接近先验分布 $p (z)$ （是一个零均值单位方差的高斯分布），编码器越好。

6. 计算损失函数：

损失函数可以表示为：（一般情况下，第一项可以加一个超参数 $\alpha$ 来控制）
$\mathcal{L}(\phi, \theta; x) = \alpha D_{\text{KL}}(q_\phi(z|x) \| p(z)) - \mathbb{E}_{q_\phi(z|x)}[\log p_\theta(x|z)]$

7. 反向传播和参数更新：

通过反向传播算法计算损失函数相对于模型参数 $\phi$ 和 $\theta$ 的梯度。注意，在采样步骤需要使用重参数技巧，不然梯度会断掉。
使用梯度下降法或其变种（如Adam优化器）更新模型参数：
- $\phi \leftarrow \phi - \eta \frac{\partial \mathcal{L}}{\partial \phi}$
- $\theta \leftarrow \theta - \eta \frac{\partial \mathcal{L}}{\partial \theta}$
  其中 $\eta$ 是学习率。