Python深度学习之VAE

最新推荐文章于 2024-05-21 10:45:51 发布

CDFMLR

最新推荐文章于 2024-05-21 10:45:51 发布

阅读量3.1k

点赞数 1

分类专栏： Python深度学习文章标签： python 深度学习人工智能

本文链接：https://blog.csdn.net/u012419550/article/details/108186180

版权

Deep Learning with Python

这篇文章是我学习《Deep Learning with Python》(第二版，François Chollet 著) 时写的系列笔记之一。文章的内容是从 Jupyter notebooks 转成 Markdown 的，你可以去 GitHub 或 Gitee 找到原始的 .ipynb 笔记本。

你可以去这个网站在线阅读这本书的正版原文(英文)。这本书的作者也给出了配套的 Jupyter notebooks。

本文为 第8章生成式深度学习 (Chapter 8. Generative deep learning) 的笔记之一。

文章目录

Deep Learning with Python
- 8.4 Generating images with variational autoencoders

8.4 Generating images with variational autoencoders

用变分自编码器生成图像

前两篇介绍的 DeepDream 和 Neural Style Transfer 都只是有限地“修改”现有作品。而下面我们要介绍地 GAN 和 VAE 则是更加富有创造性的，这两种技术都是从图像的潜在空间中采样，并创建全新图像或编辑现有图像。

VAE：变分自编码器(Variational AutoEncoder)
GAN：生成式对抗网络(Generative Adversarial Network)

从潜在空间采样

潜在空间(latent space)是一个向量空间，其中任意点都可以被映射为一张逼真的图像。而实现这种映射(潜在点->图像)的模块就是 GAN 的 generator，或者 VAE 的 decoder。

GAN、VAE 生成图像的关键就在于找到一个低维的「表示潜在空间」(latent space of representations)。一旦找到这样的潜在空间，从中采样，映射到图像空间，就可以生成全新的图像。

学习图像的潜在向量空间，并利用这个空间来采样新图像

GAN 和 VAE 学习的潜在空间有很大的区别：

VAE 善于学习具有良好结构的潜在空间，其中的特定方向可以编码(表示)数据中一个有意义的变化的轴。
GAN 生成的图像可以非常逼真，但潜在空间缺乏良好的结构、没有足够的连续性。

概念向量

概念向量(concept vector)：给定一个表示的潜在空间或一个嵌入空间，空间中的特定方向可能表示原始数据中有意义的变化轴。例如对于图像，人脸图像的潜在空间中可能存在一个代表「微笑」这个概念的向量(称为微笑向量，smile vector)：对于代表某张人脸的潜在点 z，z+s 就是同一张人脸面带微笑的表示。

找到了这样的一些概念向量之后，我们就可以用这种方法来编辑图像了：将图像投射到潜在空间，和概念向量做运算来移动其表示，然后再解码到图像空间，就可以改变图像中的某一概念了——比如微笑程度：

微笑向量

变分自编码器

自编码器是一种网络类型，接收一张图像，通过 encoder 模块将其映射到「潜在空间」，然后再通过 decoder 模块将其解码成与原始图像尺寸相同的输出。这东西训练时的目标是使输出和输入相同，所以我们把输入、输出用同一张图片。所以自编码器学习的是对原始输入进行重新构建。

通过对编码(编码器的输出)施加限制，可以让自编码器学到有用的数据潜在表示。比如限制编码要低维并且是稀疏的，这样编码器就可以将输入数据压缩为更少二进制位的信息：

自编码器:将输入x映射为压缩表示，然后再将其解码为x’

变分自编码器 VAE，是一种现代化的自编码器。它是一种生成式模型，特别做利用概念向量进行图像编辑的任务。比起经典自编码器，VAE 可以学习更连续的、高度结构化的潜在空间。

VAE 不是将输入图像压缩成潜在空间中的固定编码，而是将图像转换为统计分布的参数——平均值和方差。VAE 解码的时候利用平均值和方差，从分布中随机采样一个元素，并将这个元素解码到原始输入。所以 VAE 的编码/解码过程是有一定的随机性的。

这个过程的随机性提高了 VAE 潜在空间的稳健性：VAE 需保证潜在空间采样的每个点都能解码为有效的输出，这迫使潜在空间的任何位置都对应有意义的表示。

VAE 将一张图像映射为两个向量 z_mean 和 z_log_var，二者定义了潜在空间中的一个概率分布，用于采样一个潜在点并对其进行解码

上图展现了 VAE 的工作原理：

Encoder 模块将输入样本 input_img 转换为表示潜在空间中的参数 z_mean 和 z_log_variance;
从这个潜在正态分布中随机采样一个点 z: z = z_mean + exp(z_log_variance) * epsilon，其中 epsilon 是取值很小的随机张量;
Decoder 模块将这个潜在点映射回原始输入图像。

epsilon 是随机的，所以需要与 input_img 编码的潜在位置(z-mean)靠近的每个点都能被解码为与 input_img 类似的图像，这个性质迫使潜在空间能够连续地有意义：潜在空间中任意两个相邻的点都会被解码为高度相似的图像。连续性以及潜在空间的低维度，又迫使潜在空间中的每个方向都表示数据中一个有意义的变化轴，这样就可以通过概念向量来进行操作。

用 Keras 实现 VAE 的伪代码如下：

z_mean, z_log_variance = encoder(input_img)
z = z_mean + exp(z_log_variance) * epsilon
reconstructed_img = decoder(z)
model = Model(input_img, reconstruced_img)

训练 VAE 需要两个损失函数：

重构损失(reconstruction loss)：使解码后的样本匹配初始输入;
正则化损失(regularization loss)：使潜在空间具有良好结构（连续性、概念向量可用性），同时也降低在训练数据上的过拟合;

我们具体实现编码器(encoder)网络：通过一个卷积神经网络，将输入图像 x 映射为两个向量 z_mean 和 z_log_var。

# 不使用及时执行模式

import tensorflow as tf

tf.compat.v1.disable_eager_execution()

# VAE 编码器网络

from tensorflow import keras
from tensorflow.keras import layers
from tensorflow.keras import backend as K
from tensorflow.keras.models import Model
import numpy as np

img_shape = (28, 28, 1)
batch_size = 16
latent_dim = 2    # 潜在空间的维度：2D平面

input_img = keras.Input(shape=img_shape)
x = layers.Conv2D(32, 3, padding='same'

最低0.47元/天解锁文章

CDFMLR

关注

1
点赞
踩
25

收藏

觉得还不错? 一键收藏
2
评论
Python深度学习之VAE

Deep Learning with Python这篇文章是我学习《Deep Learning with Python》(第二版，François Chollet 著) 时写的系列笔记之一。文章的内容是从 Jupyter notebooks 转成 Markdown 的，你可以去 GitHub 或 Gitee 找到原始的 .ipynb 笔记本。你可以去这个网站在线阅读这本书的正版原文(英文)。这本书的作者也给出了配套的 Jupyter notebooks。本文为第8章生成式深度学习 (Chapt
复制链接

扫一扫