[2018IJCV]DRIT++: Diverse Image-to-Image Translationvia Disentangled Representations

原创已于 2023-03-25 16:18:49 修改 · 856 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #人工智能 #深度学习

于 2023-03-21 23:26:42 首次发布

DRIT++是一种用于多样性图像到图像转换的方法，它利用解纠缠的表征将输入图像嵌入内容和属性空间。通过内容对抗损失和潜在回归损失实现解纠缠，同时利用跨周期一致性损失处理未配对数据。此外，模式搜寻正则化增强了生成图像的多样性。该模型在多域图像转换中也表现出效用，所有网络在不同域之间共享，鉴别器同时进行图像鉴别和域分类。

DRIT++: Diverse Image-to-Image Translationvia Disentangled Representations

通过解纠缠表征的多样性图像转化

文章链接：https://arxiv.org/pdf/1905.01270v1.pdf

代码链接：GitHub - HsinYingLee/DRIT: Learningdiverse image-to-image translation from unpaired data

为了合成多样性图像，我们把输入图像嵌入到两个空间中，一个是域不变的内容空间，捕获跨域之间的共享信息，另一个是域特殊的属性空间。我们的模型采用从给定输入中提取的编码内容特征，从属性空间中采样的属性向量，在测试时合成不同的输出图像。

域特定的属性空间目的在于在给定的相同内容（例如背景）的域中建模各种不同的变换（例如把猫换成狗），域不变的内容捕获跨域间之间的信息。

我们通过应用内容对抗损失，鼓励内容特征不携带域特定的信息，并且应用潜在回归损失来鼓励建在属性向量和对应输出之间的可逆映射，来获得解纠缠表示。

我们提出了cross-cycle consisitencyloss 来处理未配对数据。给定一对未对齐的图像，我们首先执行跨域映射，通过交换两个图像的属性向量来获得中间结果。紧接着，我们重建原始输入图像通过再一次跨域映射再使用cross-cycle consisitency loss来加强原始图像和重建图像的一致性。此外，我们应用了the mode seeking regularization（模式搜寻正则化）来进一步提升生成图像的多样性。

在测试时，我们可以使用从属性空间中随机采样的向量来生成不同的输出，或者从现有图像中提取的转移属性向量进行示例引导转换。

方法：

我们的模型由内容编码器Ecx和Ecy，属性编码器Eax和Eay，生成器Gx和Gy，域鉴别器Dx和Dy，内容鉴别器Dcadv组成。

以X域为例，内容编码器Ecx映射输入图像到一个共享的、域不变的内容空间中，属性编码器Eax映射输入图像到一个域特定的属性空间（Eax：X →Ax）。生成器Gx根据内容和属性向量为条件合成图像，即： (Gx : {C，Ax}→ X )。鉴别器Dx的目的是在域X中鉴别真实图像和合成图像。此外，内容鉴别器Dc被训练来区分两个域中提取的内容表征。为了在测试时合成多模态输出，我们正则化属性向量以至于可以从先验高斯分布N(0, 1)中绘制出来。

我们的方法将输入图像嵌入到共享内容空间C，以及特定于领域的属性空间Ax和Ay。

直观地说，内容编码器将域之间共享的公共信息进行编码到共享内容空间C上，属性编码器应该将剩余的特定于领域的信息映射到Ax和Ay。即：

为了实现解纠缠表征，我们应用了两种策略：

第一，假设两个域共享相同的内容空间，我们令内容编码器Ecx和Ecy的最后一层和生成器Gx和Gy的第一层共享权重，通过权重共享，我们使得内容表征可以映射到相同的内容空间C中。

第二，可是，对于两个域来说，共享高层级的映射函数不可以保证相同的内容编码相同的信息。因此，我们提出了一个内容鉴别器Dc目的在于区分编码内容特征zcx和zcy的域隶属性(可以理解为分别来自于哪个域)。另一方面，内容编码器学习生成编码的内容表示，其域成员关系不能通过内容鉴别器Dc来区分。我们将这种内容对抗性损失表示为:

cross-cycle Consistency Loss(跨周期一致性损失):

使用解纠缠表示(其中内容空间在域之间共享，属性空间编码域内变化)，我们可以执行

通过结合来自任意图像的内容表示和来自目标域图像的属性表示，实现I2I转换。我们利用这个性质提出了跨周期一致性。相对于cyclegan中的循环一致性约束(即X→Y→X)假设两个域之间有一对一的映射，提出的跨周期约束利用解纠缠的内容和属性表示进行循环重构。

前向翻译：

给定一对未配对图像x和y，将它们编码为{zcx，zax }和{zcy，zay }。接着，我们通过交换属性表征zax和zay来执行第一次转换，转换后的图像为u，v，u ∈ X , v∈ Y。

后向翻译：

前向翻译翻译完之后，我们通过再次交换属性表征来进行第二次转换对原输入图像进行重建。

则利用重建图像和原图像做损失即为跨周期一致性损失：

其他损失函数：

域对抗损失：

我们造成了对抗性损失Ldomain adv，其中DX和DY试图在每个域中区分真实图像和生成图像，而GX和GY试图生成真实图像。

自重建损失：

除了交叉循环重构，我们还应用了自重构损失Lrecon1，例如编码器将{zcx，zax }还原为重建图像x^。

KL损失：

为了在测试时执行随机抽样，我们鼓励属性表示尽可能接近先验高斯分布。

其中：

Latentregression loss潜在回归损失：

为了鼓励图像和潜在空间之间的可逆映射，我们应用潜在回归损失Llatent1。我们从先验高斯分布中绘制一个潜在向量z作为属性表示，并尝试重构Z^ = Eax(Gx(Ecx(x),z)) 和 Z^ = Eay(Gy(Ecy(x),z))。

总损失函数：

ModeSeeking Regularization模式搜寻正则化：

我们引入模式寻求正则化来缓解条件生成任务中的mode-dropping问题。给定一个条件图像I，潜在向量z1和z2,和一个条件生成器G，模式搜寻正则化旨在最大化G(I, z1)和G(I, z2)之间的距离与z1之间z2的距离之比。

正则化术语可以很容易地应用于所提议的框架:

多域图像转换：

除了两个域之间的转换，我们将提出的解缠表示应用于多域设置。与双域I2I不同，多域I2I的目标是使用单个生成器G在多个域之间执行转换。

我们进一步将提出的解纠缠表示框架扩展到更通用的多域设置。与双域I2I中使用的特定于类的编码器、生成器和鉴别器不同，多域中的所有网络在所有域之间共享。此外，采用one-hot域码作为输入，鉴别器在进行鉴别的同时还进行域分类。

给定k个域{Ni}i=1 ~ k，两个图像（x， y）和它们的one-hot域代码(zdx , zdy)被随机采样(x∈Nn, y∈Nm, Zd⊂Rk)，我们编码图像到共享内容空间C和域特定属性空间{Ai}i=1~ k

然后，我们执行类似于双域翻译的正向和反向翻译。

除了在两域转换中使用的损失函数外，我们还利用鉴别器D作为辅助域分类器。鉴别器D不仅旨在区分真实图像和翻译图像(Ddis)，而且还进行域分类(Dcls: Ni→Zd)。

总目标函数为：

网络结构：

对于内容编码器Ec，使用一个由三个卷积层和四个残差块组成的架构。

对于属性编码器Ea，使用带有四个卷积层的CNN架构，然后是全连接层。

对于生成器G，使用由四个残差块组成的架构，后面跟着三个分数步长卷积层。