昇思25天学习打卡营第17天|CycleGAN图像风格迁移互换

leesan快点跑

已于 2024-07-15 17:14:58 修改

阅读量555

点赞数 19

文章标签：学习

于 2024-07-12 13:55:45 首次发布

本文链接：https://blog.csdn.net/leesan0802/article/details/140376850

版权

背景

提供免费算力支持，MindSpore学习训练营，打卡第17天。本次学习的内容为生成式中的CycleGAN图像风格迁移互换。记录学习的过程。

模型介绍

模型简介

CycleGAN(Cycle Generative Adversarial Network) 即循环对抗生成网络，来自论文 Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks 。该模型实现了一种在没有配对示例的情况下学习将图像从源域 X 转换到目标域 Y 的方法。

该模型一个重要应用领域是域迁移(Domain Adaptation)，可以通俗地理解为图像风格迁移。其实在 CycleGAN 之前，就已经有了域迁移模型，比如 Pix2Pix ，但是 Pix2Pix 要求训练数据必须是成对的，而现实生活中，要找到两个域（画风）中成对出现的图片是相当困难的，因此 CycleGAN 诞生了，它只需要两种域的数据，而不需要他们有严格对应关系，是一种新的无监督的图像迁移网络。

模型结构

CycleGAN 网络本质上是由两个镜像对称的 GAN 网络组成，其结构如下图所示（图片来源于原论文）：

为了方便理解，这里以苹果和橘子为例介绍。上图中 𝑋可以理解为苹果，𝑌为橘子；𝐺为将苹果生成橘子风格的生成器，𝐹为将橘子生成的苹果风格的生成器， $D_{X}$ 和 $D_{Y}$ 为其相应判别器。模型最终能够输出两个模型的权重，分别将两种图像的风格进行彼此迁移，生成新的图像。

该模型一个很重要的部分就是损失函数，在所有损失里面循环一致损失(Cycle Consistency Loss)是最重要的。循环损失的计算过程如下图所示（图片来源于原论文）：

图中苹果图片 $x$ 经过生成器 $G$ 得到伪橘子 $\hat{Y}$ ，然后将伪橘子 $\hat{Y}$ 结果送进生成器 $F$ 又产生苹果风格的结果 $\hat{x}$ ，最后将生成的苹果风格结果 $\hat{x}$ 与原苹果图片X 一起计算出循环一致损失，反之亦然。循环损失捕捉了这样的直觉，即如果我们从一个域转换到另一个域，然后再转换回来，我们应该到达我们开始的地方。

数据集

本案例使用的数据集里面的图片来源于ImageNet，该数据集共有17个数据包，本文只使用了其中的苹果橘子部分。图像被统一缩放为256×256像素大小，其中用于训练的苹果图片996张、橘子图片1020张，用于测试的苹果图片266张、橘子图片248张。

这里对数据进行了随机裁剪、水平随机翻转和归一化的预处理，为了将重点聚焦到模型，此处将数据预处理后的结果转换为 MindRecord 格式的数据，以省略大部分数据预处理的代码。

数据集下载

使用 download 接口下载数据集，并将下载后的数据集自动解压到当前目录下。

数据集加载

使用 MindSpore 的 MindDataset 接口读取和解析数据集。

可视化

通过 create_dict_iterator 函数将数据转换成字典迭代器，然后使用 matplotlib 模块可视化部分训练数据。

构建生成器

本案例生成器的模型结构参考的 ResNet 模型的结构，参考原论文，对于128×128大小的输入图片采用6个残差块相连，图片大小为256×256以上的需要采用9个残差块相连，所以本文网络有9个残差块相连，超参数 n_layers 参数控制残差块数。

生成器的结构如下所示：

构建判别器

判别器其实是一个二分类网络模型，输出判定该图像为真实图的概率。网络模型使用的是 Patch 大小为 70x70 的 PatchGANs 模型。通过一系列的 Conv2d 、 BatchNorm2d 和 LeakyReLU 层对其进行处理，最后通过 Sigmoid 激活函数得到最终概率。

优化器和损失函数

根据不同模型需要单独的设置优化器，这是训练过程决定的。

对生成器 𝐺 及其判别器 $D_{Y}$ ，目标损失函数定义为:

其中 𝐺试图生成看起来与 𝑌中的图像相似的图像 𝐺(𝑥)，而 $D_{Y}$ 的目标是区分翻译样本 𝐺(𝑥)和真实样本 𝑦 ，生成器的目标是最小化这个损失函数以此来对抗判别器。即。

单独的对抗损失不能保证所学函数可以将单个输入映射到期望的输出，为了进一步减少可能的映射函数的空间，学习到的映射函数应该是周期一致的，例如对于 𝑋 的每个图像 𝑥 ，图像转换周期应能够将 𝑥 带回原始图像，可以称之为正向循环一致性，即 𝑥→𝐺(𝑥)→𝐹(𝐺(𝑥))≈𝑥 。对于 𝑌，类似的 𝑥→𝐺(𝑥)→𝐹(𝐺(𝑥))≈𝑥。可以理解采用了一个循环一致性损失来激励这种行为。循环一致损失函数定义如下：