CVPR2021/邻域自适应/图像翻译-DRANet: Disentangling Representation and Adaptation Networks

原创

已于 2022-04-12 11:31:22 修改 · 2.9k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #迁移学习 #图像处理 #深度学习 #神经网络

于 2022-04-09 17:33:08 首次发布

CVPR2021/邻域自适应-DRANet: Disentangling Representation and Adaptation Networks for Unsupervised Cross-Domain Adaptation 无监督跨域自适应的解纠缠表示和自适应网络

0.摘要
1.概述
2.相关工作
- 2.1.无监督领域自适应
- 2.2.潜在特征的解纠缠Disentangling Internal Representation
3.DRANet
4.实验
5.结论
附录：
- 架构细节
- 内容-自适应域迁移(CADT)的影响
参考文献

论文下载

0.摘要

在本文中，我们提出了DRANet，这是一种网络体系结构，它将图像表示分离，并在潜在空间中传输视觉属性，以实现无监督的跨域自适应。与现有的学习共享一个域的相关特征的域自适应方法不同，DRANet保留了每个域特征的独特性。我们的模型对源图像和目标图像的内容（场景结构）和风格（艺术外观）的单独表示进行编码。然后，它通过将转换的样式因子和为每个域指定的可学习权重合并到内容因子中来调整域。该学习框架允许使用单个编码器网络进行双向/多向域自适应，并调整其域转移。此外，我们还提出了一个内容自适应域传输模块，该模块有助于在传输样式的同时保留场景结构。大量实验表明，我们的模型成功地分离了内容风格因素，合成了视觉上令人愉悦的域转移图像。该方法在标准的数字分类任务和语义分割任务上都表现出了最先进的性能。

1.概述

深度神经网络（DNN）的使用在许多领域都带来了显著的性能改进，包括计算机视觉[6]、机器学习[13]和自然语言处理[7]。然而，问题依然存在，尤其是数据之间的领域差距，这会显著降低模型性能。人们已经做出了大量努力，使用无监督的领域适应来推广跨领域的模型[1,38,23,36,9,32,37,21,2,15,39]。无监督域自适应尝试将标记源数据中的分布偏移与未标记目标数据对齐。已经探索了各种策略来弥合跨领域的差距，例如，通过特征学习和生成像素级适应。
特征级方法[38,23,32,36,9,32,37]学习结合任务区分和领域不变性的特征，这两个领域都映射到一个公共特征空间。域不变性通常涉及最小化某些特征距离度量[38,23,32]或对抗性鉴别器精度[9]。像素级方法[21,2]通过利用生成性对抗网络（GAN）[14,24,28,30,4]的力量，在原始像素空间而非特征空间中执行类似的分布对齐[14,24,28,30,4]。它们调整源域图像，使其看起来像是从目标域绘制的。一些研究[15,35,39]结合了像素级和特征级方法，以实现互补优势。
最近，通过将分离的表示学习到潜在特征空间中的专有和共享组件，研究领域得到了进一步的发展[3,12,22,45]。他们证明，表示解纠缠提高了模型提取领域不变特征的能力，以及领域自适应性能。然而，这些方法仍然关注两个域之间的关联特性，例如共享和独占组件，因此它们需要多个专门用于各个域的编码器和生成器。此外，除了领域分类器之外，网络训练还严重依赖于带有地面真相类标签的任务分类器。
在这里插入图片描述
为了解决这些问题，我们提出了DRANet，这是一个单一的前馈网络，跨域适应不需要任何地面真相任务标签。与图1-（a）中先前将所有域图像映射到共享特征空间的方法不同，我们侧重于提取保留图1-（c）中单个域特征的特定于域的特征。然后，我们使用分隔符将各个领域的区分性特征分解为内容和样式组件，然后使用分隔符生成领域自适应特征。与之前的特征分离工作[42]不同，之前的特征分离工作将潜在向量线性划分为图1-（b）中的两个分量，我们的分离器专门用于分离非线性流形中的潜在变量。我们在网络设计背后的直觉是，不同领域的内容和风格可能有不同的分布，这无法通过潜在向量的线性分离来有效处理。因此，为了处理这种差异，我们的网络采用了非线性分离和特定于域的尺度参数，专门用于处理这种域间差异。
据我们所知，DRANet是第一种完全基于单个域特征的无监督跨域自适应方法。它使我们能够应用单个编码器-解码器网络，从完全未标记的数据进行多向域传输。我们的方法的特点总结如下：

我们提出了DRANet，它分离图像表示，并调整潜在空间中的视觉属性，以对齐域转移。
我们提出了一个内容自适应域传输模块，该模块有助于合成复杂分割数据集的真实图像，如城市景观[5]和GTA5[29]。
我们证明，通过我们的方法合成的图像提高了任务性能，并在标准数字分类任务和语义分割任务中实现了最先进的性能。

2.相关工作

2.1.无监督领域自适应

特征级领域自适应方法通常通过修改区分性表示空间来调整学习分布。该策略通过最小化源和目标的特征空间统计数据之间的差异来指导特征学习。早期的深度自适应方法最小化了域偏移的一些测量，例如最大平均差异[38,23]或相关距离[32]。最近的作品[9,36,37]学习了源标签的区别性表示，同时无法通过作品[1]激发的对抗性损失来区分域。域不变特征是通过标准的反向传播训练发现的，其中包含极大极小损失[9]、域混淆损失[36]或GAN损失[37]。
无监督域自适应的另一种方法是生成像素级域自适应，它使用对抗性训练将图像与源图像的内容和目标图像的样式进行合成[14]。Liu和Tuzel[21]使用负责解码抽象语义的特定层，通过权重共享来学习源和目标表示的联合分布。Bousmalis等人[2]使用GANs学习像素空间中从一个域到另一个域的变换。Hoffman等人[15]在像素和特征级别上调整表示，同时使用循环一致性损失来实现结构和语义的一致性。Y e等人[39]还结合了像素级和特征级域分类器，以校准目标域图像，其表示接近源域。

2.2.潜在特征的解纠缠Disentangling Internal Representation

对于艺术风格的转移，人们广泛研究了潜在空间中风格和内容成分的分离[33,8,11,42,43]。Tenebaum和Freeman[33]展示了感知系统如何分离内容和风格因素，并提出了解决这两个因素的双线性模型。Elgammal和Lee[8]介绍了一种在表示动态对象的流形上分离样式和内容的方法。Gatys等人[11]展示了CNN学习的通用特征表示如何操纵自然图像的内容和风格。Zhang等人[43]提出了一种神经网络，用一小组图像来表示每种风格和内容，同时分离表示。Zhang等人[42]将特征表示分为内容和风格两部分。
在关于领域适应的研究中，最近人们对探索内部表征的方法越来越感兴趣。Bousmalis等人[3]学习提取被划分为两个子空间的图像表示：私有和共享组件，并表明独特特征的建模有助于提取域不变特征。Gonzalez-Garcia等人[12]试图理清两个领域中的排他性因素，以及跨领域共享的因素。Liu等人[22]提出了一种跨域表示解纠缠器，用于跨数据域连接信息并传输属性。Zou等人[45]介绍了一个联合学习框架，该框架将身份相关\不相关的特征分离出来，用于人员重新识别任务。我们讨论了我们的工作和第一节列出的工作之间的主要区别。

3.DRANet

3.1.概述

在这里插入图片描述

图2。我们模型的概述。(左)包含编码器E、分隔符S和生成器g的图像平移块。源图像和目标图像I_X、I_Y为输入，重构图像Iˋ_X、Iˋ_Y和域传输图像I_X→Y、I_Y→X为输出。(右)训练损失包括重建L_Rec，一致性L_Con，感知L_Per和对抗性L_GAN损失。

我们的方法的整个流程如图2所示。我们的框架可以扩展到跨三个域的域转移，如图3所示，尽管该示例仅展示了两个域的情况。该网络由编码器E、特征分割器S、生成器G、源域和目标域的两个鉴别器D_X、D_Y和感知网络P组成。在训练阶段，我们学习这些网络的所有参数，以及补偿两个域分布的特征缩放因子w_X→Y, w_Y→X。给定源图像和目标图像I_X, I_Y，编码器E提取单独的特征F_X, F_Y，然后通过生成器G来重建原始输入图像Iˋ_X、Iˋ_Y。分隔符S将每个特征F_X, F_Y分解为场景结构和艺术外观的组成部分，本文分别将内容称为C_X、C_Y和风格称为S_X、S_Y。然后，利用可学习的尺度参数w_X→Y, w_Y→X合成转移域特征F_X→Y、F_Y→X。生成器G将原始特征F_X、F_Y和转移特征F_X→Y、F_Y→X分别映射到其图像空间Iˋ_X、Iˋ_Y、I_X→Y、I_Y→X。预先训练的感知网络P，提取感知特征，对内容相似度和风格相似度施加约束。我们使用D_X和D_Y两个鉴别器来对两个域施加对抗损失。在测试阶段，给定源图像和目标图像I_X, I_Y,仅使用编码器E、分隔符S、发生器G和域权值w生成域传输图像I_X→Y, I_Y→X。通过单前馈网络E-S-G，我们的方法实现了输入图像的双向域转移。

3.2.解纠缠表示和自适应

在本小节中，我们描述了分隔符S的设计动机。我们首先使用权重共享编码器提取单个图像特征F_X, F_Y:
F_X=E(I_X), F_Y=E(I_Y) (1)
分离器将这些特征分解为场景结构和艺术外观因素。我们假设非线性流形学习仍然是必要的，以便将每个特定领域的表示映射到[8]中演示的内容或风格空间中。因此，我们学习了一个非线性投影函数S，它将特征F_X分割成内容C_X和风格S_X因素，如下所示
C_X = w_XS(F_X), S_X = F_X − w_XS(F_X) (2)
其中w_X是标准化内容空间分布的权重参数