[面向I2I域适应的自监督CycleGAN,论文个人阅读分享]Self-Supervised CycleGAN for Object-Preserving Image-to-Image Domain

Self-Supervised CycleGAN for Object-Preserving Image-to-Image Domain Adaptation

Authors: Xinpeng Xie, Jiawei Chen, Yuexiang Li,Linlin Shen, Kai Ma, Yefeng Zheng

在这里插入图片描述


阅读内容总结

论文摘要(Abstract)

问题:基于生成对抗网络(GAN)的方法(例如 CycleGAN)很容易无法在图像到图像的转换中保留图像对象,这降低了它们在域适应等任务上的实用性。已经提出一些框架采用分割网络作为辅助正则化以防止内容失真。然而,它们都需要额外的像素级注释,这在实际应用中很难实现。
在本文中,我们提出了一种新颖的 GAN(即 OP-GAN)来解决该问题,其中涉及一个自监督模块,用于在图像到图像转换过程中强制图像内容的一致性,而无需任何额外的注释。我们在三个公开可用的数据集上评估了所提出的 OP-GAN。实验结果表明,我们的 OP-GAN 可以使用现成的深度学习网络(例如 PSPNet 和 U-Net)生成视觉上合理的翻译图像,并显着提高不同领域适应场景中的语义分割精度。

研究动机(Motivation/Introduction)

当前大多数基于深度学习的方法很容易遇到域转移问题—在数据集(源)上训练的模型很少在不同条件下获得的其他数据集(目标)上保持相同的性能。
图像到图像(I2I)转换是通过强制两个域的输入数据分布相似来解决该问题的潜在解决方案之一。生成对抗网络(GAN)最近在生成高质量合成图像方面取得了成功,许多研究采用 GAN 进行 I2I 域适应],通过以下方式将输入图像真实地转换为相应的输出图像:构建像素到像素的映射。作为一种代表性方法,Pix2Pix 展示了一种通过条件设置来学习这种自适应映射以捕获结构信息的策略。然而,它需要成对的跨域图像作为训练数据,而这些图像通常很难获取。
为了放松对成对训练图像的要求,最近提出了基于 GAN 的不成对 I2I 域自适应方法,例如 CycleGAN 、DiscoGAN 和 DualGAN ,其中应用循环一致性约束来鼓励双向图像具有正则化结构输出的翻译。尽管这些 GAN 在多个 I2I 翻译任务上呈现出真实的视觉结果,但在翻译后的图像中经常观察到图像内容的损坏,这对于需要严格保存图像内容的领域适应场景来说是不可接受的。一些研究人员努力解决内容扭曲的问题。他们采用额外的分割分支将语义信息嵌入到生成器中,从而强制 CycleGAN 执行内容感知图像翻译。然而,这些方法的明显缺点是需要逐像素注释
受最近研究的启发,我们利用自监督损失来保留条件 GAN 的优势,探索了自监督任务在无需逐像素注释的情况下提高 CycleGAN 图像内容保存能力的潜力。在本文中,我们提出了一种保留对象的 I2I 域自适应网络,即 OP-GAN,具有解决典型 CycleGAN 中出现的内容失真问题的特定能力。更具体地说,新引入的自监督任务将图像内容的特征与域差异的干扰分开,从而为保持图像对象的一致性带来额外的正则化。所提出的 OP-GAN 在三个公开可用的数据集上进行评估。实验结果表明,我们的 OP-GAN 可以产生令人满意的跨域图像,同时完美地保留图像内容。定量结果表明,所提出的OP-GAN可以显着提高PSPNet [35]和U-Net [24]等语义分割网络的性能,从而缩小不同领域之间的性能差距。

结论(Conclusion)

在本文中,我们提出了一种新颖的 GAN(即 OP-GAN)来执行对象保留的图像到图像域适应,而无需手动标签的监督。在三个公开可用的数据集上进行了广泛的实验。实验结果证明了我们的 OPGAN 的有效性——在保留图像对象的同时执行出色的跨域翻译。

主体工作

CycleGAN的问题

CycleGAN 有两个配对的生成器-判别器模块,能够学习两个映射,即从域 A 到域 B { G A B , D B } \{G_{AB},D_B\} {GABDB} 以及逆 B 到 A G B A , D A {G_{BA},D_{A}} GBADA 。生成器 ( G A B 、 G B A ) (G_{AB}、G_{BA}) GABGBA在源域和目标域之间转换图像,而鉴别器 ( D A 、 D B ) (D_A、D_B) DADB旨在区分原始数据和翻译后的数据。因此,生成器和判别器在这种对抗性竞争中逐渐更新。
在这里插入图片描述

原始 CycleGAN 由两个损失来监督,即对抗性损失 L a d v L_{adv} Ladv 和循环一致性损失 L c y c L_{cyc} Lcyc
以从域A转换到域B为例,对抗性损失 L a d v L_{adv} Ladv定义为: L a d v ( G A B , D B ) = E x B ∼ p x B [ ( D B ( x B ) − 1 ) 2 ] + E x A ∼ p x A [ ( D B ( G A B ( x A ) ) ) 2 ] \begin{aligned} \mathcal{L}_{adv}(G_{AB},D_{B})=& \mathbb{E}_{x_{B}\sim p_{x_{B}}}\left[(D_{B}(x_{B})-1)^{2}\right] \\ &+\mathbb{E}_{x_A\sim p_{x_A}}\left[(D_B(G_{AB}(x_A)))^2\right] \end{aligned} Ladv(GAB,DB)=ExBpxB[(DB(xB)1)2]+ExApxA[(DB(GAB(xA)))2]
其中 p x A p_{x_{A}} pxA p x B p_{x_{B}} pxB表示A和B的样本分布, x A x_A xA x B x_B xB表示从域A和B抽取的样本
循环一致性损失 L c y c L_{cyc} Lcyc背后的想法是,来自目标域的翻译数据可以准确地转换回源域: L c y c ( G A B , G B A ) = E x A ∼ p x A [ ∥ G B A ( G A B ( x A ) ) − x A ∥ 1 ] + E x B ∼ p x B [ ∥ G A B ( G B A ( x B ) ) − x B ∥ 1 ] \begin{aligned}\mathcal{L}_{cyc}(G_{AB},G_{BA})=&\mathbb{E}_{x_A\sim p_{x_A}}\left[\left\|G_{BA}(G_{AB}(x_A))-x_A\right\|_1\right]\\&+\mathbb{E}_{x_B\sim p_{x_B}}\left[\left\|G_{AB}(G_{BA}(x_B))-x_B\right\|_1\right]\end{aligned} Lcyc(GAB,GBA)=ExApxA[GBA(GAB(xA))xA1]+ExBpxB[GAB(GBA(xB))xB1]
利用这两个损失函数,CycleGAN就可以利用非成对数据来进行I2I转换。

然而,最近的研究发现循环一致性对于几何变换具有内在的模糊性。
T T T 为具有逆变换 T − 1 T^{-1} T1 的双射几何变换(例如平移、旋转、缩放甚至非刚性变换),则以下生成器 G A B ′ G '_{AB} GAB G B A ′ G '_{BA} GBA 也是循环一致的。 G A B ′ = G A B T , G B A ′ = G B A T − 1 G_{AB}^{'}=G_{AB}T, G_{BA}^{'}=G_{BA}T^{-1} GAB=GABT,GBA=GBAT1
因此,由于源图像和翻译图像之间的内容差异缺乏惩罚,CycleGAN 产生的结果可能会出现几何失真,如图 1 所示的转换结果。
现有研究提出使用带有像素级注释的分割子任务作为辅助正则化来辅助生成器的训练,这使得CycleGAN能够应用于域适应和数据增强等任务。然而,昂贵且费力的逐像素图像标注过程限制了这些框架的实际价值。
受自监督学习最新进展的推动,我们尝试使用一种新颖的自监督任务来解决 CycleGAN 的内容失真问题。所提出的自监督任务将内容信息与领域变化分开,并相应地优化 CycleGAN 的生成器,而无需任何额外的注释。

OP-GAN方法

多任务自监督学习

我们制定了两个自监督学习任务,即the content registration and domain classification,以理清图像内容和领域信息的特征

  1. 自监督的形式化
    由于自监督孪生网络没有预先存在的标签信息,因此监督来自图像数据本身。在这里插入图片描述

    先把原图像和转换出的图像分割为 3 X 3 3 3X3^3 3X33的网格,如下图所示,让 A 和 B 分别代表源图像和翻译图像,生成的补丁 (P ) 可以写为 P ∈ { A 1 , . . . , A 9 } ∪ { B 1 , . . . , B 9 } \begin{aligned}P\in\{A_1,...,A_9\}\cup\{B_1,...,B_9\}\end{aligned} P{A1,...,A9}{B1,...,B9} 。如果我们从补丁池中随机选择两个补丁,则有四个场景,如在这里插入图片描述
    所示。请注意,图2中的{A1,A5,B1,B5}是用于说明目的的示例。在训练阶段,框架从补丁池中随机选择两个补丁作为孪生网络的配对输入.
    在这里插入图片描述

    基于自监督的设计,提出了两个假设来制定对象感知域适应:

    • 来自源图像和翻译图像(C1)相同位置的补丁应该具有一致的内容;
    • 来自同一图像(D1,D2)的补丁应包含相似的域信息。
      因此,两个补丁的相对位置可用于监督提取具有内容信息的特征的代理任务,而补丁的出处信息可用于将代理任务制定为域分类。
  2. 网络结构
    在这里插入图片描述
    孪生网络涉及三个组件——两个共享权重Encoder、一个Content registration分支和一个域分类分支。通过两种损失(即内容一致性损失和领域分类损失)用于优化。共享权重Encoder将两个补丁嵌入到潜在特征空间中,并生成四个 11×11×512 特征图 ( c A , d A , c B , d B ) \begin{aligned}(c_A, d_A, c_B, d_B)\end{aligned} (cA,dA,cB,dB)用于Content registration和域分类分支。
    特征嵌入过程可以定义为: E A : P A → Z ( c A , d A ) , E B : P B → Z ( c B , d B ) E_A:P_A\to Z(c_A,d_A), E_B:P_B\to Z(c_B,d_B) EA:PAZ(cA,dA),EB:PBZ(cB,dB)其中 c A c_A cA c B c_B cB 是解离的内容特征; d A d_A dA d B d_B dB 是包含域信息的特征,四个解纠缠特征的大小为 11 × 11 × 512。之后, c A c_A cA c B c_B cB 用 1 × 1 卷积层压缩,并插值到输入补丁的原始大小以计算内容一致性损失,而 d A d_A dA d B d_B dB 连接并馈送到域分类分支,以从特征中提取域信息。

  3. Content registration
    Content registration分支旨在在I2I域适配过程中维护patch内容。如上图所示,内容特征被单独处理以产生内容注意力图( p ~ \tilde{p} p~),其表示图像对象的形状和位置。由于最小内容失真是我们的领域适应任务的强制性要求,因此源图像和翻译图像中的图像对象应该在几何上一致(即保持对象的形状和位置)。因此,我们使用 L2 范数中的两个内容注意力图 ( p ~ \tilde{p} p~)来制定内容一致性损失 ( L c c L_{cc} Lcc):
    L c c = 1 M × N ∑ x = 1 M ∑ y = 1 N ( p ~ x , y A − p ~ x , y B ) 2 \mathcal{L}_{cc}=\frac{1}{M\times N}\sum_{x=1}^M\sum_{y=1}^N(\tilde{p}_{x,y}^A-\tilde{p}_{x,y}^B)^2 Lcc=M×N1x=1My=1N(p~x,yAp~x,yB)2
    其中 M 和 N 分别是正在处理的 patch 的宽度和高度, ( x , y ) (x, y) (x,y) 是注意力图中像素的坐标。
    内容一致性损失会对源图像和翻译图像之间的内容差异产生逐像素的惩罚,这使得我们的 OP-GAN 能够合成没有失真的真实结果。 L c c L_{cc} Lcc 的计算还考虑了两个输入 patch 的相对位置,即仅针对场景 C 1 C_1 C1 计算和优化损失,否则设置为0。

  4. 域分类任务
    随机补丁选择的场景被用作域分类任务的监督信号。它被表述为 1-of-K 分类,由三个类别组成:D1、D2 和 C ( C = { C 1 , C 2 } C = \{C_1, C_2\} C={C1,C2})。首先使用串联融合域特征( d A d_A dA d B d_B dB),从而生成 11 × 11 × 1024 的判别特征图。然后通过卷积层和全局平均池化层将特征图变换并下采样为 1 × 1 × 3 向量,以进行以下场景预测。
    该任务的交叉熵损失定义为: L d c = − ∑ i l o g ( e p g i ∑ j e p j ) \mathcal{L}_{dc}=-\sum_ilog(\frac{e^{p_{g_i}}}{\sum_je^{p_j}}) Ldc=ilog(jepjepgi)
    其中 p j p_j pj表示类别分数向量的第 j 个元素( j ∈ [ 1 , K ] j \in [1, K] j[1,K],K 是类别数), g i g_i gi是第 i 个输入样本的标签。领域分类分支主要从特征中提取领域信息,从而更好地解开内容特征。

生成器与判别器

与标准 CycleGAN 一致,所提出的 OP-GAN 具有循环生成器 ( G A B , G B A ) (G_{AB},G_{BA}) (GAB,GBA)和相应的判别器 ( D B 、 D A ) (D_B、D_A) (DBDA),它们具有与[Unpaired image-to-image translation using cycle-consistent adversarial networks.]中描述的相同的架构。生成器采用实例归一化 来产生优雅的图像转换结果,旨在欺骗鉴别器,而鉴别器采用 PatchGAN 提供给定图像真假的逐块预测,而不是对图像进行分类整个图像。

目标函数

定义自监督损失为 L S = L c c + L d c \mathcal{L}_{S}=\mathcal{L}_{cc}+\mathcal{L}_{dc} LS=Lcc+Ldc由此将整个目标函数定义为: L ( G A B , G B A , D A , D B , S ) = L a d v ( G B A , D A ) + L a d v ( G A B , D B ) + α L c y c ( G A B , G B A ) + β L S ( G A B , G B A , S ) \begin{aligned} \mathcal{L}\left(G_{AB},G_{BA},D_{A},D_{B},S\right)=& \mathcal{L}_{adv}\left(G_{BA}, D_{A}\right)+\mathcal{L}_{adv}\left(G_{AB}, D_{B}\right) \\ &\begin{aligned}&+\alpha\mathcal{L}_{cyc}\left(G_{AB}, G_{BA}\right)+\beta\mathcal{L}_{S}\left(G_{AB},G_{BA},S\right)\end{aligned} \end{aligned} L(GAB,GBA,DA,DB,S)=Ladv(GBA,DA)+Ladv(GAB,DB)+αLcyc(GAB,GBA)+βLS(GAB,GBA,S)其中 α α α β β β是损失权重(我们在实验中试探性地设置 α α α = 10 和 β β β = 1)。
L S L_S LS的优化与 L a d v L_{adv} Ladv的方式相同——固定孪生网络(S)和 D A / D B D_A/D_B DA/DB,先优化 G B A / G A B G_{BA}/G_{AB} GBA/GAB,然后分别优化S和 D A / D B D_A/D_B DA/DB,固定 G B A / G A B G_{BA}/G_{AB} GBA/GAB。因此,与判别器类似,该孪生网络可以直接将图像对象的知识传递给生成器,这有助于在对象保留方面提高其转换结果的质量。

实验结果(Evaluation)

期望目标:给定两个域 ( A , B ) (A,B) AB,目标是缩小它们的差距。

  1. 视觉感知(即合理的适应结果)方面,可视化 I2I 域适应结果来定性评估。
  2. 特征表示(即改进的模型鲁棒性)方面,在迁移学习场景中评估 OP-GAN。让域 A 处于良好的图像条件(例如,曝光适当的日光场景),而域 B 则不令人满意(例如,图像较暗,丢失详细信息)。在这种情况下,由于跨域变化,在域 A 上训练的模型通常无法很好地推广到域 B 的数据。为了缓解这个问题,我们尝试不同的I2I转换框架将B域数据适配到A域进行测试。

实验设置

数据集

在三个公开可用的数据集上进行了实验,以证明 OP-GAN 的有效性

  1. CamVid
    包含不同天气下的驾驶视频,例如阴天和晴天。在光照和颜色分布方面将阴天视频适应晴天视频的任务非常具有挑战性,因为阴天视频通常非常暗,这会丢失很多详细信息。对阴天到晴天的适应进行实验来评估 OP-GAN
  2. SYNTHIA
    由虚拟城市渲染的逼真框架组成。夜间到白天的适应比阴天到晴天的适应是一项更困难的任务,因为夜间域会严重丢失上下文信息。使用来自欧洲老城(SYNTHIA 的子集)的两个子序列(即冬日和冬夜)来研究所提出的 OP-GAN 在夜间到日间适应任务中的表现
  3. Colonoscopic datasets
    来自多中心的医学图像通常具有不同的成像条件,例如颜色和照明,这使得在一个中心训练的模型难以推广到另一个中心。 OP-GAN 试图解决这个问题。两个公开可用的结肠镜数据集(即 CVCClinic 和 ETIS-Larib )用作多中心适应的两个域。
评价标准

为了评估域适应的性能,使用类交并集的平均值 (mIoU)来评估 OP-GAN 在 CamVid 和 SYNTHIA 数据集的语义分割任务上所取得的改进。
对于医学图像分割,广泛使用的 F1 分数(衡量分割结果与真实值之间的空间重叠指数)被用作评估结肠镜数据集上结直肠 ployp 分割准确性的指标。

基线概述

几个不成对的 I2I 域自适应框架,包括 CycleGAN、UNIT 和 DRIT 被用作性能评估的基线。还涉及直接传输方法,即直接获取目标域数据进行测试,不进行任何调整,进行比较。
请注意,最近提出的基于图像自适应的 GAN,例如 SPGAN 、PTGAN 和 AugGAN [10],由于这些方法中使用了强大的先验知识,因此不参与比较。
SPGAN是针对人员重识别任务而提出的,它使用了不同领域的个人ID集的先验知识。
PTGAN 需要粗分割结果来区分前景和背景区域。
AugGAN 在基于 CycleGAN 的框架中添加了分割子任务,该任务需要像素级注释。
先验知识的使用会降低这些 GAN 的泛化能力,使其仅适用于满足特定要求的领域。

训练细节

所提出的 OP-GAN 是使用 PyTorch 实现的。使用 Adam 求解器对生成器、鉴别器和孪生网络进行 200 轮迭代训练。本研究涉及的基线采用相同的训练方案。

适应结果的可视化

由不同 I2I 域自适应框架生成的三个任务的自适应结果如图
所示,说明了现有方法(UNIT、DRIT 和 CycleGAN )的主要问题——图像内容损坏。由于缺乏对源图像和翻译图像之间内容差异的惩罚,现有的 I2I 适配框架打算过度编辑图像内容,例如改变图像对象的形状和颜色,参考 CamVid 中扭曲的道路和建筑物和 SYNTHIA 翻译的图像。此外,结肠镜图像中的息肉是筛查结直肠癌的重要线索。然而,现有的框架很少能在多中心适应过程中成功地保持息肉的形状和纹理,这是不可接受的,并限制了它们在医学相关应用中的实际价值。相反,所提出的 OP-GAN 可以出色地执行跨域自适应,同时保留图像对象。

CamVid上的阴天到晴天适应

CamVid 数据集包含 4 个晴天视频(总共 577 帧)和 1 个阴天视频(124 帧)。视频的每一帧都经过手动注释,将每个像素与 32 个语义类别之一相关联。基于广泛接受的协议,我们关注 11 个类别,包括骑自行车者、建筑物、汽车、杆、栅栏、行人、道路、人行道、标志、天空和树木。
为了评估我们的 OP-GAN 产生的域适应性能,语义分割网络(PSPNet7 )使用晴天帧进行训练,并在原始阴天帧和转换后的帧上进行测试。在实验中,阳光明媚的帧被分为训练集(三个视频)和验证集(一个视频)。评价结果如下表所示。
在这里插入图片描述

由于详细信息的丢失,从其中可以看出,用晴天图像训练的PSPNet的性能在原始阴天图像上测试时急剧下降至41.86%。由于现有的 I2I 域自适应方法遇到内容失真问题,使用 CycleGAN、UNIT 和 DRIT 时 PSPNet 的分割 mIoU 分别进一步下降至 26.26%、19.94% 和 18.20%。相比之下,与Direct Transfer相比,所提出的 OP-GAN 取得了显著的改进(+9.54%),这表明 OP-GAN 可以缩小阴天和晴天区域之间的差距,同时出色地保留图像对象。所提出的 OP-GAN 显着提高了一些与物体相关的类别的 IoU,例如建筑、汽车和栅栏(分别为 +32.81%、+23.04% 和 +7.47%)。具体来说,AugGAN 使用逐像素注释来保存图像对象,在实验中实现了 55.31% 的 mIoU,这可以被视为方法的上限。

SYNTHIA 的夜间适应

采用 SYNTHIA 的两个子序列(冬日和冬夜)来进行夜间适应。冬日和冬夜序列分别包含 947 和 785 帧。 SYNTHIA 数据集为每个帧提供逐像素语义注释,可分为 13 个类别(12 个语义类别和背景)。
训练集、验证集和测试集的划分遵循与CamVid数据集相同的协议——白天图像按照70:30的比例分为训练集和验证集,而所有夜间图像作为训练集和验证集。测试集。本实验还采用全卷积网络(PSPNet )来进行语义分割。
不同测试策略产生的分割mIoU如在这里插入图片描述

所示。与阴天图像类似,用白天图像训练的PSPNet无法正确处理夜间图像——由于信息丢失,mIoU为44.49%。与 CamVid 上的阴天到晴天的适应相比,SYNTHIA 上的夜间到白天的适应是一项更具挑战性的任务,因为夜间图像的很大一部分是黑暗的,其中图像对象(例如建筑物)很难被识别。在这里插入图片描述
现有的I2I域适应框架用于创建额外的内容来填充极暗区域,从而破坏了原始图像对象。由于这些失真,UNIT、CycleGAN 和 DRIT 翻译的图像进一步将 PSPNet 的 mIoU 分别降低到 34.97%、22.88% 和 12.66%。我们的OP-GAN可以很好地防止夜间适应过程中的图像对象损坏(如图4所示),并在夜间图像中实现最佳mIoU(50.86%),比直接传输高+6.37%。

消融研究

在 CamVid 上对阴天到晴天的适应任务进行了消融研究,以评估 OPGAN 每个组件产生的贡献。消融研究的结果如在这里插入图片描述 所示。由于特征蒸馏的能力,内容注册和领域分类分支可以分别将原始 CycleGAN 的 mIoU 提高 +19.37% 和 +19.6%。这两个分支的结合可以更好地解开内容和领域信息,从而实现最高的改进(+25.14%)。为了验证所提出的自监督学习任务的有效性,我们将不同分支学到的知识可视化并分析它们对图像对象保存的贡献。

Content registration

内容配准分支的目的是在域适应之前和之后保持图像对象的形状和纹理。可视化由内容注册分支生成的两对注意力图 p ~ \tilde{p} p~),以验证它们是否具有与“对象”相关的概念。注意力图如在这里插入图片描述
所示,它表明内容注册分支更喜欢激活包含图像对象(例如建筑物和树木)的区域,并忽略包含更多域信息(例如天空)的区域。因此,如果翻译后的图像对象有较大的失真,该分支会对生成器进行惩罚,这会鼓励 OP-GAN 执行对象感知的重新转换。

域分类

为了确保场景分类是一个可学习的代理任务,在在这里插入图片描述
中绘制了由域分类分支的全局平均池化层产生的不同类别 ( D 1 , D 2 , C ) (D_1 ,D_2 ,C) D1D2C的 1×1×256 平均激活模式可以观察到,在处理来自不同场景的配对块时,不同的神经元被激活,这表明在这里插入图片描述
中定义的场景确实包含用于分类器区分彼此的特定域信息。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值