【论文阅读-1】CycleGAN原理

最新推荐文章于 2024-04-22 10:04:55 发布

Paul-Huang

最新推荐文章于 2024-04-22 10:04:55 发布

阅读量2.3k

点赞数 9

分类专栏： GAN 医学图像&论文笔记文章标签：卷积机器学习深度学习计算机视觉对抗生成网络

本文链接：https://blog.csdn.net/huang1024rui/article/details/119735057

版权

GAN 同时被 2 个专栏收录

10 篇文章 1 订阅

订阅专栏

医学图像&论文笔记

10 篇文章 5 订阅

订阅专栏

CycleGAN原理

1. 初识CycleGAN

1.1 什么是CycleGAN

CycleGAN是一种完成 $\color{red}图像到图像$ 的转换的一种GAN。
图像到图像的转换是一类视觉和图形问题，其 $\color{red}目标是获得输入图像和输出图像之间的映射$ 。
但是，对于许多任务，配对的训练数据是获取不了的（比如：相同动作下的马和斑马）。
CycleGAN提出了一种 $\color{red}在没有成对数据的情况下，学习将图像从源域X转换到目标域Y的方法$ 。

1.2 数学表示

两个图像域： $\color{blue}A$ 、 $\color{blue}B$ ；
- $A$ ：假设是马的数据集；
- $B$ ：假设是斑马的数据集。
两个单射（生成器）： $\color{blue}G_{A2B} : A \rightarrow B$ , $\color{blue}G_{B2A}: B \rightarrow A$ ；
- 生成器 $\color{blue}G_{A2B}: A \rightarrow B$ ：将图像从 $A$ 转换为 $B$ （例如马到斑马）
- 生成器 $\color{blue}G_{B2A}: B \rightarrow A$ ：将图像从 $B$ 转换为 $A$ （例如斑马到马）
这两个映射 $\color{red}是双射$ 。这是通过循环一致性损失来实现的：
- $\color{blue}G_{B2A}\left(G_{A2B} \left(A\right)\right) \approx A$
- $\color{blue}G_{A2B} \left(G_{B2A}\left(B\right)\right) \approx B$
两个判别器： $\color{blue}D_{B}$ 、 $\color{blue}D_{A}$
- 判别器 $\color{blue}D_A$ ：评分 $A$ 的图像看起来有多真实（例如，这个图像看起来像一匹马吗？）
- 判别器 $\color{blue}D_B$ ：对 $B$ 图像的真实程度打分（例如，这张图像看起来像斑马吗？）
$\color{red}循环一致性$ 是：
- 如果你能够训练这对 GAN 从 $\color{blue}A \rightarrow B \rightarrow A$ 转换，即在确保循环一致性的同时生成图像；
- 那么 $\color{blue}A \rightarrow G(A) \rightarrow F(G(A)) \approx A$ ，那么你就可以很好地学习图像Translate任务了。

2. 模型介绍

2.1 基本过程

在这里插入图片描述

以 $\color{blue}G_{A2B}$ 和 $\color{blue}D_B$ 为例。

2.2 生成器

生成器由三部分组成： $\color{red}编码器$ 、 $\color{red}转换器$ 、 $\color{red}解码器$ 。
在这里插入图片描述

2.2.1 编码器

第一步是利用卷积网络从输入图像中提取特征。整个编码过程，将 $\color{blue}D_A$ 域中一个尺寸为 [256,256,3] 的图像，输入到设计的编码器中，获得了尺寸为 [64,64,256] 的输出 $\color{blue}O_{Aenc}$ 。

2.2.2 转换器

这些网络层的作用是组合图像的不同相近特征，然后基于这些特征，确定如何将图像的特征向量 $\color{blue}O_{Aenc}$ 从 $\color{blue}D_A$ 域转换为 $\color{blue}D_B$ 域的特征向量。
作者使用 6 层 $\color{red}Resnet$ 模块。
- 一个 Resnet 模块是一个由两个卷积层组成的神经网络层，其中部分输入数据直接添加到输出。
  
  这样做是为了确保先前网络层的输入数据信息直接作用于后面的网络层，使得相应输出与原始输入的偏差缩小，否则原始图像的特征将不会保留在输出中且输出结果会偏离目标轮廓。
- 这个任务的一个主要目标是保留原始图像的特征，如目标的大小和形状，因此残差网络非常适合完成这些转换。Resnet 模块的结构如下所示：
$\color{blue}O_{Benc}$ 表示该层的最终输出，尺寸为 [64,64,256]，这可以看作是 $\color{blue}D_B$ 域中图像的特征向量。

2.2.3 解码器

解码过程与编码方式完全相反，从特征向量中还原出低级特征，这是利用了 $\color{red}反卷积层（deconvolution）$ 来完成的。
将这些低级特征转换得到一张在 $\color{blue}D_B$ 域中的图像，得到一个大小为 [256,256,3] 的生成图像 $\color{blue}Gen_B$ 。

2.3 判别器

判别器将一张图像作为输入，并尝试预测其为原始图像或是生成器的输出图像。判别器的结构如下所示：
在这里插入图片描述
判别器本身就属于卷积网络，需要从图像中提取特征；然后是确定这些特征是否属于该特定类别，使用一个产生一维输出的卷积层来完成这个任务。

2.4 Loss计算

在这里插入图片描述
Loss分为6个部分，可分为3类：

2.4.1 原始GAN的损失：

对于判别器 $\color{blue}D_B(线1)$ ：
$\color{red}\mathcal{L}_{GAN}\left(G_{A2B}, D_{B}, A, B\right) = \mathbb{E}_{b \in \mathbb{P}_B} \log D_B(b) + \mathbb{E}_{a \in \mathbb{P}_{A}} \log[1-D_B(G_{A2B}(a))]\tag{2.4.1}$
- A到B的判别网络loss（ $D_{B}$ 主要是判别 $loss_{fake}$ ），生成网络loss（ $G_{A2B}$ loss）：
  - $img_A \rightarrow G_{A2B}(img_A) \rightarrow fake_B \rightarrow D_B(fake_B) \rightarrow valid_B$
  - 输入 $img_A$ ，输出 $valid_B$ ，判别网络 $D_B$ 目标 $f a k e$ ，生成网络 $G_{A2B}$ 目标 $v a l i d$ 。
- 真实数据B的鉴别网络loss（ $D_{B}$ 主要是判别 $loss_{real}$ ）：
  - $img_B \rightarrow D_B(img_B) \rightarrow valid_B$
  - 输入 $img_B$ ，输出 $valid_B$ ，鉴别网络 $D_B$ 目标 $v a l i d$ 。
对于判别器 $\color{blue}D_A(线2)$ ：
$\color{red}\mathcal{L}_{GAN}\left(G_{B2A}, D_{A}, B, A\right) = \mathbb{E}_{a \in \mathbb{P}_A} \log D_A(a) + \mathbb{E}_{b \in \mathbb{P}_{B}} \log[1-D_A(G_{B2A}(b))]\tag{2.4.2}$

解释同上。

2.4.2 Cycle一致性损失：

对于生成器 $\color{blue}G_{B2A}(线6)$ 和生成器 $\color{blue}G_{A2B}(线5)$ :
$\color{red}\begin{array}{ll}\mathcal{L}_{cyc}\left(G_{A2B}, G_{B2A}\right) =& \mathbb{E}_{a \sim p_{data}\left(A\right)}\left[||G_{B2A}\left(G_{A2B}\left(a\right)\right) - a||_{1}\right] \\ &+ \mathbb{E}_{b \sim p_{data}\left(B\right)}\left[||G_{A2B}\left(G_{B2A}\left(b\right)\right) - b||_{1}\right]\end{array}\tag{2.4.3}$
1. 生成网络loss（ $G_{B2A}(G_{A2B})$ loss）：
  - $img_A \rightarrow G_{A2B}(img_A) \rightarrow fake_B \rightarrow G_{B2A}(fake_B) \rightarrow rec_A$ ；
  - 输入 $img_A$ ，输出 $rec_A$ ，生成网络 $G_{A2B} \rightarrow G_{B2A}$ 目标 $imgs_A$ ；
2. 生成网络loss（ $G_{A2B}(G_{B2A})$ loss）解释同上

2.4.3 Identity映射损失:

对于生成器 $\color{blue}G_{B2A}(线3)$ 和生成器 $\color{blue}G_{A2B}(线4)$ :
$\color{red}\mathcal{L}_{Identity}\left(G_{A2B}, G_{B2A}\right) = \mathbb{E}_{b \sim p_{data}\left(B\right)}\left[||G_{A2B}\left(b\right) - b||_{1}\right] + \mathbb{E}_{a \sim p_{data}\left(A\right)}\left[||G_{B2A}\left(a\right) - a||_{1}\right]\tag{2.4.4}$
1. 生成网络loss（ $G_{B2A}$ Ident_loss）：
  - $img_A \rightarrow G_{B2A} \rightarrow {img_A}_{id}$
  - 输入 $img_A$ ，输出 ${img_A}_{id}$ ，目标 $imgs_A$ ；
2. 生成网络loss（ $G_{A2B}$ Ident_loss）：
  - $img_B \rightarrow G_{A2B} \rightarrow {img_B}_{id}$
  - 输入 $img_B$ ，输出 ${img_B}_{id}$ ，目标 $img_B$ 。

2.4.4 整体损失

整体损失可以写成：
$\color{red}\begin{array}{ll} \mathcal{L}_{GAN}\left(G_{A2B}, G_{B2A}, D_{A}, D_{B}\right) &=\mathcal{L}_{GAN}\left(G_{A2B}, D_{B}, A, B\right) + \mathcal{L}_{GAN}\left(G_{B2A}, D_{A}, B, A\right) \\& +\lambda_{cyc}\mathcal{L}_{cyc}\left(G_{A2B}, G_{B2A}\right) + \lambda_{id} \mathcal{L}_{Identity}\left(G_{A2B}, G_{B2A}\right)\end{array}\tag{2.4.5}$
我们需要求解：
$\color{red}G_{A2B}^{*}, G_{B2A}^{*} = \arg \min_{G_{A2B}, G_{B2A}} \min_{D_{A}, D_{B}} \mathcal{L}_{GAN}\left(G_{A2B}, G_{B2A}, D_{A}, D_{B}\right)\tag{2.4.6}$
对于原始架构，作者使用：
1. 对于生成网络：两个 stride-2 卷积、几个残差块和两个带 stride 的分数步长卷积
2. 对于生成网络：instance normalization
3. 对于判别器：用PatchGAN
4. GAN 目标的最小二乘损失。

3. 讨论

3.1 去掉重构误差？模型是否还有效？

模型仍然有效，只是收敛比较慢，毕竟缺少了重构误差这样的强引导信息。以及，虽然实现了风格迁移，但是人物的一些属性改变了，比如可能出现『变性』、『变脸』，而姿态在转换的时候一般不出现错误。这表明： $\color{red}对偶重构误差能够引导模型在迁移的时候保留图像固有的属性$ ； $\color{red}而对抗loss则负责确定模型该学什么，该怎么迁移$ 。

3.2 GAN（generative adversarial network）的生成模型为什么不直接用VAE（variational autoencoder）或者AE（autoencoder）？

AE很难生成样本的原因是它对隐变量空间没有限制，很可能编码空间仍是一个非线性带边界的空间，随机取样时很有可能并不在编码空间内。VAE则限制了隐变量和先验的关系，取样时更有可能在解码器的“定义域”内。
参考：1. Adversarial Autoencoders
1. 关于生成模型的一些小思考

3.3 为什么Cycle一致性损失和 Identity映射损失要用l1范式？

因为： $\color{red}l_1正则是稀疏作用，先验分布是Laplace分布；l_2正则是绝对值最小，先验分布是Gaussian分布$ 。
在这里插入图片描述

4. 参考

Paul-Huang

关注

9
点赞
踩
35

收藏

觉得还不错? 一键收藏
2
评论
【论文阅读-1】CycleGAN原理

CycleGAN原理1. 初识CycleGAN1.1 什么是CycleGANCycleGAN是一种完成图像到图像\color{red}图像到图像图像到图像的转换的一种GAN。图像到图像的转换是一类视觉和图形问题，其目标是获得输入图像和输出图像之间的映射\color{red}目标是获得输入图像和输出图像之间的映射目标是获得输入图像和输出图像之间的映射。但是，对于许多任务，配对的训练数据是获取不了的（比如：相同动作下的马和斑马）。CycleGAN提出了一种在没有成对数据的情况下
复制链接

扫一扫