DRIT：Diverse image-to-image translation via disentangled representations 论文阅读

最新推荐文章于 2024-06-04 15:54:10 发布

john_bh

最新推荐文章于 2024-06-04 15:54:10 发布

阅读量6.7k

点赞数 4

分类专栏：风格转换文章标签： DRIT Disentangled I2I ECCV2018 DRIT mage-to-Image

本文链接：https://blog.csdn.net/john_bh/article/details/106604470

版权

风格转换专栏收录该内容

1 篇文章 0 订阅

订阅专栏

转载请注明作者和出处： http://blog.csdn.net/john_bh/

论文链接: DRIT：Diverse image-to-image translation via disentangled representations
论文链接: DRIT++
作者及团队：加州大学 & 谷歌云
会议及时间：ECCV 2018 Oral
code: 作者开源github 地址

文章目录

1.主要贡献

Image-to-image translation 旨在学习两个视觉域之间的映射。许多应用面临两个主要挑战：
1）缺少对齐的训练对；
2）单个输入图像可能有多个输出。

提出了一种基于解耦表示的方法，可以在没有成对的训练图像的情况下产生各种输出。
提出将图像嵌入到两个空间中：捕获跨域共享信息的不变域内容空间和特定于域的属性空间，使用解耦的特征作为输入，可以大大减少模式崩溃，实现了多样性；
引入 cross-cycle consistency 损失,处理未配对的训练数据；
结果表明 DRIT 模型可以在各种任务上生成多样且逼真的图像。

在这里插入图片描述
如上图所示，DRIT 可以实现两种类型的风格转换:

左图：给定输入，和服从正态分布的随机噪声，即可得到风格转换图；
右图：给定两张输入，通过编码器分别获得两张图片的Attribute，通过交换Attribute进行风格转换，把其中一张输入作为Guide，也就是只提供Attribute特征（右图Attribute列）。

在这里插入图片描述
无监督 $I 2 I$ translation方法的比较： $x$ 和 $y$ 分别表示 $\mathcal{X}$ 和 $\mathcal{Y}$ 域中的图像:

(a) CycleGAN 和 Disco 将 $x$ 和 $y$ 映射到分离的潜在空间上;
(b) UNIT假设 $x$ 和 $y$ 可以映射到一个共享的潜在空间；
(c) DRIT 将 $x$ 和 $y$ 的潜在空间分离为每个域的共享内容空间 $\mathcal{C}$ 和属性空间 $\mathcal{A}$ 。

在这里插入图片描述

2. DRIT

在这里插入图片描述
从图3来看，这篇论文的网络结构还是比较复杂的，由4个编码器，2个生成器，2个判别器，1个内容判别器组成的。4个编码器用来学两种不同风格图像的内容和特征，2个生成器分别用于学两种不同风格的图片，2个判别器就用来判别器这两个生成器生成的结果是否足够“逼真”。为了在测试时实现多模态生成，正则化了属性向量，以便它们可以从先验高斯分布N(0,1)中提取。

2.1 Disentangle Content and Attribute Representations

DRIT 的方法是将输入的图像嵌入到共享的的内容空间和特殊域的属性空间 $\mathcal{A}_{\mathcal{X}}$ 和 $\mathcal{A}_{\mathcal{Y}}$ ,也就是说内容编码器应该将域之间共享的公共信息编码到 $\mathcal{C}$ 中，而属性编码器应该将剩余的特定于域的信息映射到 $\mathcal{A}_{\mathcal{X}}$ 和 $\mathcal{A}_{\mathcal{Y}}$ 中。
在这里插入图片描述
作者基于这样的一个假设：不同风格类型图片的内容由于不包含特征信息（理想情况下），应该是不可区分的。在这个前提下，作者提出了两个策略：

weight-sharing: 两个内容编码器( $E^c_{\mathcal{X}} ,E^c_{\mathcal{Y}}$ )的最后一层网络参数共享，保证两个内容分布一致；两个生成器( $G_{\mathcal{X}} ,G_{\mathcal{Y}}$ )的第一层网络参数共享；通过权重共享，我们强制将内容表示映射到相同的空间。但是，共享相同的高级映射功能不能保证相同的内容表示形式对两个域都编码相同的信息。
content discrimination: 用于区分编码内容特征 $z^c_x$ 和 $z^c_y$ 的属于哪一类。

内容对抗损失表达式如下：
在这里插入图片描述

2.2 Cross-cycle Consistency Loss

将域之间的共享内容空间和编码域内变化的属性空间的解耦表示，可以通过组合来自任意图像的内容表示和目标域图像的属性表示来执行I2I转换。DRIT 的跨周期约束包括 I2I 转换的两个阶段。

Forward translation： 给定两个不对应的图像 $x$ 和 $y$ ,把他们编码到 $\{z^c_x,z^a_x\}$ 和 $\{z^c_y,z^a_y\}$ ，交换属性执行第一次交换，生成 ${u,v\}$ ， $u\in \mathcal{X},v\in \mathcal{Y}$ ：
Backward translation： 通过再次交换属性表示来执行第二次转换：

经过两个I2I 转换阶段后，转换需要重构原始图像 $x$ 和 $y$ (如图3所示)。为了加强这一约束，cross-cycle consistency loss 表示为:
在这里插入图片描述

2.3 Other Loss Functions

除了 content adversarial loss 和 cross-cycle consistency loss之外，作者还使用其他几种损失功能来促进网络训练。在图4中说明了这些额外的损失。从右上方开始，以逆时针顺序：
在这里插入图片描述

Domain adversarial loss： 在 $D_{\mathcal{X}}$ 和 $D_{\mathcal{y}}$ 处引入了对抗性损失 $L^{domain}_{adv}$ 尝试在每个域内区分真实图像和生成图像， $G_{\mathcal{X}}$ 和 $G_{\mathcal{y}}$ 尝试生成真实图像；
Self-reconstruction loss： 为促进训练，使用了self-reconstruction loss $L^{rec}_1$ ；
KL loss： 为了在测试时进行随机抽样，要求属性表示尽可能接近先验高斯分布，引入KL 损失， $L_{KL}= \mathbb{E}[D_{KL}((z_a)||N(0,1))]$ ，其中 $D_{KL}(p||q)=-\int p(z)log\frac{p(z)}{q(z)}dz$ ；
Latent regression loss： 为了鼓励图像和潜在空间之间的可逆映射，使用Latent regression loss， $L^{latent}_{1}$ 。

网络的完整目标函数为:
在这里插入图片描述

3. Experimental Results

Diversity：在图5中，演示在几个不同任务上生成的图像的多样性。在图6中，DRIT模型与其他方法比较结果。winter->summer实验，图5，图6 结果图中可以看出DRIT生成的比其他的方法生成的图片更加自然逼真。

为了更好地理解已学习的特定领域属性空间，作者在两个给定属性之间进行线性插值，并生成相应的图像，如图7所示。插值结果验证了该模型在属性空间上的连续性，并表明该模型可以在分布上进行基因化，而不是记忆琐碎的视觉信息。

作者说图7中证明了提出的方法的生成器学习的是图像的分布，而不是简单的记忆训练集中的图像，但是个人觉得这个解释不够清晰。大胆的猜测，上图中非红色框内为本文生成的图片，作为 guide 的 Attribute 是两张Attribute图片经过Encoder 学习到的特征进行插值得到的。

Attribute transfer：图8 展示了属性转换结果。(DRIT 不仅可以进行属性间转换，也可以实现属性内转换)
Realism vs. diversity： 主要是比较不同方法生成的图片的真实性。实验数据：winter->summer translation on the Yosemite dataset。给定真实图像和从用各种方法生成的转换图像中采样的图像，用户需要回答“哪幅图像更真实?” 。使用LPIPS度量来衡量图像之间的相似性。计算从100个真实图像转换而来的1000对随机采样图像之间的距离。

Fig.9左侧结果图实验设置为判断一对图片中，询问观测者哪张图片更真实一点。这一对图片怎么采集的呢？一张是来自我们方法生成的图片，另外一张则是来自其他不同生成方法的结果图。Fig.9右侧结果图实验设置为判断一对图片中，询问观测者哪张图片更真实一点。这一对图片怎么采集的呢？一张是来自真实图片，另外一张则是来自不同生成方法的结果图。遗憾的是文章中并没有明确地提到该次实验的观测者数量，判断图片是否为整个数据集。这是比较存疑的一个实验。从这个结果来看，生成图像的真实性比cycleGAN还要低的多。

表2的第一行和第二行结果可以明显的看出本文提出的内容判别器对生成结果的多样性有很大的提升。
Reconstruction ability： 表3想表达的是BicycleGAN需要成对的数据集，对数据集的要求比较高，而DRIT不需要成对的数据集效果却能和BicycleGAN旗鼓相当。
Domain Adaptation：DRIT 图像到图像的转换方案能够实现无监督域的自适应。效果展示如图10，定量比较如表4所示。

john_bh

关注

4
点赞
踩
29

收藏

觉得还不错? 一键收藏
4
评论
DRIT：Diverse image-to-image translation via disentangled representations 论文阅读

ECCV 2018 Oral Diverse image-to-image translation via disentangled representations
复制链接

扫一扫

专栏目录