【通俗理解】变分自编码器（VAE）——深度学习中的生成模型

最新推荐文章于 2024-08-17 10:50:44 发布

神经美学-茂森

最新推荐文章于 2024-08-17 10:50:44 发布

阅读量1.1k

点赞数 13

分类专栏：人工智能算法 transformer 自动生成算法文章标签：深度学习人工智能

神经美学-茂森

本文链接：https://blog.csdn.net/qq_37148940/article/details/141173470

版权

人工智能算法同时被 3 个专栏收录

115 篇文章 15 订阅

订阅专栏

自动生成算法

15 篇文章 0 订阅

订阅专栏

transformer

8 篇文章 0 订阅

订阅专栏

【通俗理解】变分自编码器（VAE）——深度学习中的生成模型

第一节：变分自编码器的类比与核心概念

1.1 变分自编码器的类比

变分自编码器（VAE）可以想象成一个“智能画师”，通过学习大量画作，能够创作出全新的画作，同时保证这些画作与真实画作风格一致。
在深度学习背景下，VAE通过学习数据的潜在分布，实现数据的生成和重构。

1.2 相似公式比对

标准自编码器： $\text{output} = \text{decode}(\text{encode}(\text{input}))$ ，侧重于重构输入数据。
变分自编码器： $\text{output} = \text{decode}(z)$ ，其中 $z$ 是从潜在空间采样得到的，侧重于生成新数据。

第二节：变分自编码器的核心概念与应用

2.1 核心概念

VAE由编码器、解码器和潜在空间组成。编码器将输入数据映射到潜在空间的分布，解码器从潜在空间采样并生成新数据。
例如，在图像生成中，编码器将图像映射到潜在空间的分布，解码器从分布中采样并生成新图像。

2.2 应用

数据生成：学习数据的潜在分布，生成与真实数据相似的新数据。
异常检测：通过比较生成数据与真实数据的差异，检测异常数据。

2.3 优势

生成模型：能够生成与真实数据相似的新数据。
潜在空间表示：学习数据的潜在分布，有助于理解数据的内在结构。

2.4 与深度学习的类比

VAE是深度学习中的“生成艺术家”，通过学习数据的潜在分布，创作出全新的艺术作品。
深度学习是大型工具箱，VAE是其中用于生成模型的强大工具。

第三节：变分自编码器与深度学习交汇的核心作用

组件/步骤	描述
3.1 编码器	将输入数据映射到潜在空间的分布，通常输出分布的参数（如均值和方差）。
3.2 潜在空间	数据的潜在表示，通过从分布中采样可以生成新数据。
3.3 解码器	从潜在空间采样并生成新数据，确保生成数据与真实数据风格一致。
3.4 损失函数	包括重构损失和潜在空间分布的KL散度，用于训练VAE。

第四节：公式探索与推演运算

4.1 变分自编码器的基本公式

VAE的生成过程：

$\int p(x|z)p(z)dz$

其中， $p (z)$ 是潜在空间的先验分布， $p (x ∣ z)$ 是解码器定义的生成模型。

4.2 损失函数与优化

VAE的损失函数包括两部分：重构损失和KL散度。

$\text{Loss} = \text{Reconstruction Loss} + \text{KL Divergence}$

重构损失通常使用均方误差（MSE）或交叉熵损失，KL散度衡量潜在空间分布与先验分布的差异。

4.3 与深度学习的关系

VAE是深度学习模型，通过学习数据的潜在分布实现数据生成和重构。
在深度学习中，VAE可用于生成模型、异常检测等任务。

第五节：公式推导与相似公式比对

标准自编码器 与 变分自编码器：
- 共同点：都通过编码器和解码器结构实现数据的重构。
- 不同点：标准自编码器侧重于重构输入数据，而VAE侧重于学习数据的潜在分布并生成新数据。
生成对抗网络（GAN） 与 变分自编码器：
- 功能相似：都用于生成模型。
- 差异：GAN通过竞争训练生成器和判别器，而VAE通过优化重构损失和KL散度训练模型。

第六节：核心代码


import numpy as np
import matplotlib.pyplot as plt
import tensorflow as tf
from tensorflow.keras.layers import Input, Dense
from tensorflow.keras.models import Model
from tensorflow.keras.datasets import mnist

# 加载MNIST数据集
(x_train, _), (x_test, _) = mnist.load_data()

# 数据预处理
x_train = x_train.astype('float32') / 255.
x_test = x_test.astype('float32') / 255.
x_train = x_train.reshape((len(x_train), np.prod(x_train.shape[1:])))
x_test = x_test.reshape((len(x_test), np.prod(x_test.shape[1:])))

# 构建自编码器模型
input_img = Input(shape=(784,))
encoded = Dense(128, activation='relu')(input_img)
decoded = Dense(784, activation='sigmoid')(encoded)

autoencoder = Model(input_img, decoded)
autoencoder.compile(optimizer='adam', loss='mse')

# 训练自编码器
autoencoder.fit(x_train, x_train,
                epochs=50,
                batch_size=256,
                shuffle=True,
                validation_data=(x_test, x_test))

# 可视化原始图像和重构图像
encoded_imgs = autoencoder.predict(x_test)

n = 10  # 展示10张图像
plt.figure(figsize=(20, 4))
for i in range(n):
    # 显示原始图像
    ax = plt.subplot(2, n, i + 1)
    plt.imshow(x_test[i].reshape(28, 28))
    plt.gray()
    ax.get_xaxis().set_visible(False)
    ax.get_yaxis().set_visible(False)

    # 显示重构图像
    ax = plt.subplot(2, n, i + 1 + n)
    plt.imshow(encoded_imgs[i].reshape(28, 28))
    plt.gray()
    ax.get_xaxis().set_visible(False)
    ax.get_yaxis().set_visible(False)
plt.show()

代码解释：

数据加载与预处理：加载MNIST数据集，将图像数据归一化到0到1之间，并展平为784维的向量。
模型构建：使用Keras构建自编码器模型，编码器部分有一个隐藏层，解码器部分也有一个隐藏层。
模型训练：使用均方误差作为损失函数，优化器为Adam，训练50个epoch。
可视化：将测试集中的图像输入自编码器，获取重构后的图像，并将原始图像和重构图像进行可视化对比。
这段代码展示了自编码器的基本应用，即数据压缩和重构，通过可视化原始图像和重构图像，可以直观地看到自编码器的性能。