生成对抗网络系列—ACL-GAN

最新推荐文章于 2021-09-03 16:25:44 发布

MasterQKK 被注册

最新推荐文章于 2021-09-03 16:25:44 发布

阅读量958

点赞数 2

分类专栏： Deep learning 文章标签：深度学习

本文链接：https://blog.csdn.net/QKK612501/article/details/115470911

版权

Deep learning 专栏收录该内容

43 篇文章 11 订阅

订阅专栏

系列文章目录

======================================================
专题-生成对抗网络
第一节 GAN
第二节
第三节生成对抗网络系列—CycleGAN
第四节生成对抗网络系列—ACL-GAN

======================================================

背景

这篇文章研究的场景是：paired image to image translaction，与CycleGAN相同:在Unpaired场景下，有两个域：源域 $X_{S}$ 和目标域 $X_{T}$ , $X=X_{S} \cup X_{T}$ , 其对应的分布分别为： $p_{S}$ , $p_{T}$ , $p_{X}$ 。

这篇文章解决的问题：Cycle-consistency loss 由于严格的像素级约束（例如CycleGAN中作者使用L1距离逐像素度量原图像与Cycle恢复后图像之间的差距），它无法执行几何更改，移除大物体或忽略无关的纹理。为了克服这个问题，作者提出了所谓的Adversarial consistence loss (ACL)。

模型

ACL-GAN由5个Module组成：两个Generator，三个Discriminator, 具体如下：
$G_{S}: (x,z) \rightarrow x_{S}$ ：将任意域的图像映射到源域；
$G_{T}: (x,z) \rightarrow x_{T}$ ：将任意域的图像映射到目标域；
$D_{S}$ : 源域上的Discriminator；
$D_{T}$ : 目标域上的Discriminator；
$\hat{D}$ 一致性判别器；
注：1. $\in N(0, 1)$ , 每个Generator本身由Noise encoder, encoder,和decoder三部分组成，Noise encoder服务于Indentity loss。
2.Generator的设计中融入噪声也是一个常用的技巧，也是ACL-GAN发挥作用的关键因素之一。

损失函数

损失函数由三部分组成: (1) Adversarial translation loss; (2) Adversarial consistency loss; (3) Inentity loss and mask.
在这里插入图片描述
(1)Adversarial translation loss
Adversarial translation loss比较常规，由两部分组成，分别是源域和目标域上的, 损失形式与GAN类似：
先来看目标域上的：

其中正样本为 $x_{T}$ , 负样本为 $\bar{x}_{T}=G_{T}(x_{S}, z_{1})$ , $z_{1} \in N(0, 1)$

再来看源域上的：
在这里插入图片描述其中正样本为 $x_{S}$ , 负样本由 $\hat{x}_{S}=G_{S}(\bar{x}_{T}, z_{2})$ 和 $\tilde{x}_{S}=G_{S}(x_{S}, z_{3})$ 组成， $z_{2},z_{3} \in N(0, 1)$
注：可以看到，源域上和目标域上的Adversarial translation losss稍有不同，源域上的负样本多了 $\tilde{x}_{S}$ , 而目标域中却没有负样本 $\tilde{x}_{T}$ ，
把上面两个合并起来就是：
在这里插入图片描述

(2)Adversarial consistency loss
动机：为了在转换后的图像中保存原图中的重要特征，提出了对抗一致性损失Adversarial consistency loss，通过一个一致性判别器 $\hat{D}$ 实现： $\hat{D}$ 以 $x_{S}$ 为参考，并采用成对的图像作为输入，以使生成器最小化联合分布 $(x_{S}, \hat{x}_{S})$ 和联合分布 $(x_{S}, \tilde{x}_{S})$ 之间的距离。
损失形式如下：
在这里插入图片描述

注：输入噪声z非常重要，它使得对于每个 $\in x_{S}$ , $G_{S}(x,z_{3})$ 可以有很多个，即所谓的多模态输出(multi-modal outputs), 否则的话，该损失项将退化为使得 $\hat{x}_{S}$ 与 $x_{S}$ 相同，即Cycle-consistency loss。
(3)**Inentity loss **
动机：为了保证当把目标域的样本作为Generator的输入时，Generator近似于恒等映射，提出了Inentity loss。
Inentity loss的计算需要借助两个噪声编码器: $E_{S}^{z}: X_{S} \rightarrow Z$ 和 $E_{T}^{z}: X_{T} \rightarrow Z$ ,
Inentity loss形式如下：
在这里插入图片描述

(4)Bounded focus mask
动机：实际中，某些应用程序要求生成器仅修改源图像的某些区域，而其余部分保持不变，这就需要借助Mask。
具体来说，我们让Generator产生四个通道，其中前三个是RGB图像的通道，第四个称为有界聚焦区域，其值在0到1之间。
在这里插入图片描述
其中： $x_{S}$ 是源图像， $x_{T}^{'}$ 是生成器的前三个输出通道， $x_{m}$ 是有界聚焦罩(即生成器的第四个输出通道)。
$L_{mask}$ 定义如下：

注：最终 $L_{mask}$ 会基于图像的size被归一化。

总的损失函数形式如下：
在这里插入图片描述

References

1.Unpaired Image-to-Image Translation using Adversarial Consistency Loss, ECCV, 2020

MasterQKK 被注册

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
1
评论
生成对抗网络系列—ACL-GAN

Unpaired Image-to-Image Translation using Adversarial Consistency Loss损失函数由三部分组成: (1) **Adversarial translation loss**; (2) **Adversarial consistency loss**; (3) **Inentity loss and mask**Noise encoder, encoder,和decoder三部分组成一致性判别器有界聚焦区域mask
复制链接

扫一扫