万物皆可GAN ---普通GAN, pix2pix, CycleGAN和pix2pixHD的比较以及演变过程

最新推荐文章于 2025-02-27 13:50:18 发布

啊菜来了

最新推荐文章于 2025-02-27 13:50:18 发布

阅读量3.3k

点赞数 8

分类专栏： GAN 文章标签： python pytorch GAN 算法

本文链接：https://blog.csdn.net/m0_61985580/article/details/124566840

版权

这里写目录标题

第1章传统计算机视觉基本原理（图像的建模）
- 1.1 传统的计算机视觉
- 1.2 不足
第2章基于深度学习DNN的计算机视觉的基本原理（图像的判定）
- 2.1 基于深度学习的计算机视觉DNN
- 2.2 DNN的不足
第3章常规生成对抗网络GAN的基本原理（不受控的图像的生成）
第4章 pix2pix网络的基本原理（“形似”受控的图像生成、创作）
第5章 CycleGAN的原理（“神似”受控的图像生成、创作）
第6章 pix2pixHD

第1章传统计算机视觉基本原理（图像的建模）

1.1 传统的计算机视觉

在2012年之前，CV的主要研究方法是使用人工设计（hand-designed）的图像特征来完成各种任务（见下图）。
在这里插入图片描述

1.2 不足

这些特征都是人为预设的，图像的处理基于这些预设的特征，如颜色特征、外形特征等等。人为特征的最大缺陷是：不同场合的特征不一样，不同场景，需要建立不同的模型，适应性差。

传统的图形学管线（pipeline）中，输出图像需要经过建模、材质贴图、光照、渲染等一系列繁琐的步骤。
在这里插入图片描述

第2章基于深度学习DNN的计算机视觉的基本原理（图像的判定）

2.1 基于深度学习的计算机视觉DNN

2012年，随着使用深度神经网络（Deep Neural Network, DNN）在ImageNet的分类任务上取得了巨大成功，图像处理的任务由认为构建图像特征发展成，机器自己发现图像的特征。

如下图所示，DeepNet能够自动发现输入图像（RGB通道的像素），并根据发现的特征，完成某种任务。这些DNN包括：全连接网络、卷积网络CNN、时序网络RNN/LSTM.
在这里插入图片描述
基于网络自动发现的图像特征，可以完成的任务包括（不限于）
（1）物体识别（Object detection） [Redmon etal., 2018]
（2）对人体肢体的理解（Human understanding） [Guler et al., 2018]
（3）自动驾驶（Autonomous driving） [Zhao et al., 2017]

在这里插入图片描述

2.2 DNN的不足

之前的DNN可能是输入一幅图像，输出一个标签（比如说猫），那我们能不能输入“猫”这个字，输出一张猫的照片呢？
在这里插入图片描述
很遗憾，答案是No！
因为这种任务实在太复杂啦！
我们很难让DNN凭空输出图像这样的高维数据（High dimensional data）（这里的“高维”可以理解成数据量大）。

实际上，在很长一段时间里，DNN只能输出数字这种简单的、低分别率的小图像，就像下面这样：
在这里插入图片描述
而想要生成想游戏场景这类的图片，DNN这种方法根本没用。

第3章常规生成对抗网络GAN的基本原理（不受控的图像的生成）

3.1 常规生成对抗网络GAN

2014年，一个叫做生成对抗网络（Generative Adversarial Network）——也就是大名鼎鼎的GAN——的东西横空出世。作者是下面这位小哥和他的小伙伴们：
在这里插入图片描述

至此，GAN网络可以自己输出多维度的图片数据了。
图像数据具备了真实图片集的公共特征。
生成的高纬度的图像数据会骗过网络的判决器，被判定为真实的图片。