Domain Separation Networks

https://blog.csdn.net/weixin_37993251/article/details/91472097

Abstract

大规模数据收集和注释的成本常常使机器学习算法应用于新任务或数据集的成本高得令人望而却步。规避这一成本的一种方法是在自动提供注释的合成数据上训练模型。尽管这些模型很有吸引力,但它们往往无法从合成图像推广到真实图像,因此需要使用域自适应算法来操纵这些模型,然后才能成功应用。现有的方法要么侧重于将表示从一个域映射到另一个域,要么侧重于学习提取与提取域不变的特性。然而,通过只关注于在两个域之间创建映射或共享表示,它们忽略了每个域的单个特征。我们假设,显式地对每个域所特有的进行建模可以提高模型提取域不变特征的能力。受私有共享组件分析工作的启发,我们显式地学习了提取图像表示,这些图像表示被划分为两个子空间:一个组件是每个域的私有组件,另一个组件是跨域共享的。我们的模型不仅被训练在源域中执行我们关心的任务,而且使用分区表示来重构来自这两个域的图像。我们的新体系结构产生了一个模型,该模型在一系列非监督域适应场景上的性能优于最先进的模型,并且还生成了私有和共享表示的可视化,从而支持对域适应过程的解释。


1 Introduction

最近监督学习算法的成功部分归功于它们所训练的大规模数据集[16,22]。不幸的是,收集、注释和管理这样的数据集是一个极其昂贵和耗时的过程。另一种选择是在非现实但便宜的设置中创建大型数据集,比如计算机生成的场景。虽然这种方法提供了有效地无限数量标记数据的承诺,但是在这种设置中训练的模型不能很好地推广到现实领域。受此启发,我们研究了在训练和测试期间数据分布不同的场景中,域不变的学习表示的问题。在这个设置中,源数据被标记为一个特定的任务,我们希望将知识从源转移到目标领域,而我们对该领域没有基本事实标签。

在这项工作中,我们的重点是目标分类和姿态估计的任务,其中的目标是在给定的图像前景,无论是源域和目标域。源域和目标像素分布可以在许多方面不同。我们将分布中的低水平差异定义为由噪声、分辨率、光照和颜色引起的差异。高层次的差异与类的数量、对象的类型和几何变化有关,比如3D位置和姿态。我们假设我们的源域和目标域主要不同于低层图像统计量的分布,并且它们具有分布相似、标签空间相同的高层参数。

提出了一种新的域分离网络 Domain Separation Networks(DSN)结构来学习域不变表示。以前的工作试图找到源域表示到目标[26]表示之间的映射,或者找到两个域之间共享的表示[8,28,17]。虽然这在原则上是一个好主意,但它使共享表示容易受到与底层共享分布[24]相关的噪声的污染。相反,我们的模型引入了每个域的私有子空间的概念,它捕获了域的特定属性,比如背景和低层图像统计。共享子空间通过使用自动编码器和显式丢失函数来实现,它捕获域共享的表示。通过找到一个与私有子空间正交的共享子空间,我们的模型能够分离每个域特有的信息,并在此过程中生成对当前任务更有意义的表示。我们的方法在一系列用于对象分类和姿态估计的数据集上优于最先进的域适应技术,同时通过允许这些私有和共享表示的可视化,具有可解释性优势。在第二节中,我们回顾了相关的工作并介绍了相关的术语。我们的架构、损失函数和学习机制在第3节中介绍。实验结果和讨论见第4节。最后,结论和未来的工作方向在第5节。


2 Related Work

学习进行无监督域适应是一个开放的理论和实践问题。虽然已有很多现有技术,但是我们的文献综述主要关注基于卷积神经网络(CNN)的方法,因为它们在这个问题上的经验优势[8,17,26,29]。Ben-David等人的[4]给出了目标域中自适应分类器的上界。他们引入了训练一个二元分类器来区分源域和目标域的思想。这个域非相干分类器提供的错误(以及源域特定分类器的错误)结合起来给出了整个边界。Mansour等人将[18]理论扩展到处理多个源域的情况。

Ganin等[7,8]和Ajakan等人的[2]使用对抗性训练来寻找网络中的域不变表示。它们的领域对抗神经网络(DANN)展示了一种结构,其最初的几个特征提取层由两个同时训练的分类器共享。第一个训练用于正确预测源数据上特定于任务的类标签,第二个训练用于预测每个输入的域。DANN使特定于域分类器的参数的域分类损失最小化,同时使两个分类器共有的参数的域分类损失最大化。通过使用梯度反转层(GRL),这种极小极大优化成为可能。

Tzeng等人[29]和Long等人[17]提出了该模型的版本,其中用最大平均偏差(MMD)度量[11]的最小化代替了域分类损失的最大化。MMD度量是在从每个域的样本集中提取的特征之间计算的。Tzeng等人提出的Deep Domain Confusion Network[29]在CNN体系结构中有一层MMD损失,Long等人提出的深适应网络在多层MMD损失。

其他相关技术包括学习从一个领域到另一个领域的转换。在此设置中,在域自适应优化过程中,特征提取管道是固定的。这已经应用于各种非cnn的方法[9,5,10],以及最近基于cnn的相关对齐(Correlation Alignment, CORAL)[26]算法中,该算法利用目标域特征的协方差对源特征进行重新着色。


3 Method

虽然领域分离网络(DSNs)在原则上可以应用于其他学习任务,但没有失去泛化,我们主要使用图像分类作为跨领域的任务。给定源域中有标记的数据集和目标域中有未标记的数据集,我们的目标是训练一个分类器,用于从源域中归纳到目标域中的数据。像以前的工作[7,8],我们的模型经过训练,使得来自源域的图像表示与来自目标域的图像表示相似。这使得一个基于源域图像训练的分类器可以泛化,因为分类器的输入在理论上不受源域的影响。然而,这些表示可能包括与共享表示高度相关的噪声,如Salzmann等人的[24]所示。

我们主要的新奇之处是,受最近关于共享空间组件分析的工作[14,24,30]的启发,DSNs显式地为域表示的私有和共享组件建模。表示的两个私有组件特定于每个域,表示的共享组件由两个域共享。为了诱导模型产生这样的分割表示,我们添加了一个损失函数来鼓励这些部分的独立性。最后,为了确保私有表示仍然有用(避免平凡的解决方案)并增加可泛化性,我们还添加了重构损失。这些目标的组合是一个模型,它为域和特定于域的私有表示生成类似的共享表示。通过以这种方式划分空间,基于共享表示的分类器能够更好地泛化域,因为它的输入不受每个域所特有的表示方面的污染。

\mathbf{X}_{S}=\left\{\left(\mathbf{x}_{i}^{s}, \mathbf{y}_{i}^{s}\right)\right\}_{i=0}^{N_{s}}表示源域\mathbf{x}_{i}^{s} \sim \mathcal{D}_{S}N_s样本的标记数据集,令\mathbf{X}^{t}=\left\{\mathbf{x}_{i}^{t}\right\}_{i=0}^{N_{t}}表示目标域\mathbf{x}_{i}^{t} \sim \mathcal{D}_{T}N_t样本的未标记数据集。让E_{c}\left(\mathbf{x} ; \boldsymbol{\theta}_{c}\right)是一个函数参数化的图像x,hc代表一个隐藏的表示特性相同或跨域共享。让E_{p}\left(\mathbf{x} ; \boldsymbol{\theta}_{p}\right)是一个类似的函数映射图像x隐藏表示hp表示特性是独有的领域。让D\left(\mathbf{h} ; \boldsymbol{\theta}_{d}\right)是一个解码函数映射一个隐藏表示h, x ^一个图像重建。最后,G\left(\mathbf{h} ; \boldsymbol{\theta}_{g}\right)代表一个特定于任务的函数,参数化,θg h从隐藏表示映射到特定于任务的预测\hat{\mathbf{y}}。得到的域分离网络(DSN)模型如图1所示。

3.1 Learning

DSN模型的推理由\hat{\mathbf{x}}=D\left(E_{c}(\mathbf{x})+E_{p}(\mathbf{x})\right) \text { and } \hat{\mathbf{y}}=G\left(E_{c}(\mathbf{x})\right)给出,其中\hat{\mathbf{x}}为输入x的重构,\hat{\mathbf{y }}为任务特定预测。训练的目标是最小化以下损失对参数\Theta=\left\{\theta_{c}, \theta_{p}, \theta_{d}, \theta_{g}\right\}

\mathcal{L}=\mathcal{L}_{\text { task }}+\alpha \mathcal{L}_{\text { recon }}+\beta \mathcal{L}_{\text { difference }}+\gamma \mathcal{L}_{\text { similarity }}

α;β;γ是损失的重量控制的交互。分类损失Ltask训练模型来预测我们最终感兴趣的输出标签。因为我们假设目标域没有标记,所以损失只应用于源域。我们希望最小化每个源域样本的ground truth类的负对数可能性:

\mathcal{L}_{\text { task }}=-\sum_{i=0}^{N_{s}} \mathbf{y}_{i}^{s} \cdot \log \hat{\mathbf{y}}_{i}^{s}

其中\mathbf{y}_{i}^{s}为源输入i类标签的一热编码,\hat{\mathbf{y}}_{i}^{\boldsymbol{s}}为模型的软最大预测:\hat{\mathbf{y}}_{i}^{s}=G\left(E_{c}\left(\mathbf{x}_{i}^{s}\right)\right)。我们使用一个尺度不变的均方误差项[6]来表示重构损失Lrecon,它应用于两个领域:

\mathcal{L}_{\text { recon }}=\sum_{i=1}^{N_{s}} \mathcal{L}_{\text { si } \operatorname{mse}}\left(\mathbf{x}_{i}^{s}, \hat{\mathbf{x}}_{i}^{s}\right)+\sum_{i=1}^{N_{t}} \mathcal{L}_{\text { si-mse }}\left(\mathbf{x}_{i}^{t}, \hat{\mathbf{x}}_{i}^{t}\right)

\mathcal{L}_{\mathrm{si}_{-} \mathrm{mse}}(\mathbf{x}, \hat{\mathbf{x}})=\frac{1}{k}\|\mathbf{x}-\hat{\mathbf{x}}\|_{2}^{2}-\frac{1}{k^{2}}\left([\mathbf{x}-\hat{\mathbf{x}}] \cdot \mathbf{1}_{k}\right)^{2}

其中k为输入x的像素个数,1k为长度为k的向量;k·k2 2是l2的平方模。虽然均值平方误差损失传统上用于重建任务,但它会惩罚在缩放项下正确的预测。相反,尺度不变的均方误差抵消了像素对之间的差异。这允许模型学习复制被建模对象的整体形状,而不需要在输入的绝对颜色或强度上花费建模能力。在第4.3节中,我们通过训练我们的最佳DSN模型的一个版本,用传统的均方误差损失代替式3中的尺度不变损失,验证了这种重构损失确实是正确的选择。

差异损失也应用于两个域,并鼓励共享和私有编码器对输入的不同方面进行编码。我们定义损失通过软子空间正交约束之间的私有和共享表示每个领域。设\mathbf{H}_{c}^{s} \text { and } \mathbf{H}_{c}^{t}为矩阵,其行分别为源数据和目标数据样本中的隐藏共享表示\mathbf{h}_{c}^{s}=E_{c}\left(\mathbf{x}^{s}\right) \text { and } \mathbf{h}_{c}^{t}=E_{c}\left(\mathbf{x}^{t}\right)。同样,设\mathbf{H}_{p}^{s} \text { and } \mathbf{H}_{p}^{t}分别为源数据和目标数据样本行分别为私有表示的\mathbf{h}_{p}^{s}=E_{p}^{s}\left(\mathbf{x}^{s}\right) \text { and } \mathbf{h}_{p}^{t}=E_{p}^{t}\left(\mathbf{x}^{t}\right)矩阵。差异损失鼓励了共享表示和私有表示之间的正交性

\mathcal{L}_{\text { difference }}=\left\|\mathbf{H}_{c}^{s \top} \mathbf{H}_{p}^{s}\right\|_{F}^{2}+\left\|\mathbf{H}_{c}^{t^{\top}} \mathbf{H}_{p}^{t}\right\|_{F}^{2}

\|\cdot\|_{F}^{2}是弗洛贝尼乌斯范数的平方。最后,Lsimilarity鼓励共享编码器中的隐藏表示hs c和ht c尽可能地相似,而不考虑域。我们用两个相似损失进行了实验,并对其进行了详细的讨论。

3.2 Similarity Losses

领域对抗性相似性损失[7,8]用于训练模型产生分类器无法可靠预测编码表示的领域的表示。通过梯度反转层(GRL)和一个训练有素的域分类器来预测产生隐藏表示的域,可以最大限度地消除这种混淆。GRL具有与恒等函数相同的输出,但是反转了梯度方向。形式上,对于某个函数f(u), GRL定义为Q(f(\mathbf{u}))=f(\mathbf{u}),梯度\frac{d}{d \mathbf{u}} Q(f(\mathbf{u}))=-\frac{d}{d \mathbf{u}} f(\mathbf{u})。域分类器Z\left(Q\left(\mathbf{h}_{c}\right) ; \boldsymbol{\theta}_{z}\right) \rightarrow \hat{d}参数化θz地图共享表示向量\mathbf{h}_{c}=E_{c}\left(\mathbf{x} ; \boldsymbol{\theta}_{c}\right),标签\hat{d} \in\{0,1\}的预测;1 g的输入样本与GRL x。学习是敌对的,θz优化增加Z s能力区分编码图像的源或目标域,而逆转模型参数的梯度结果θc学习表示域分类精度降低。基本上,我们最大化二项式叉对θz域预测任务,同时最小化对θc:

\mathcal{L}_{\text { simiarity }}^{N_{s}+N_{t}}\left\{d_{i} \log \hat{d}_{i}+\left(1-d_{i}\right) \log \left(1-\hat{d}_{i}\right)\right\}

其中d_{i} \in\{0,1\}是样本i的基真域标签,最大平均差损失[11]是一对样本之间基于核的距离函数。我们对源样本hs c的共享编码与目标样本ht c的共享编码之间的平方总体MMD使用有偏统计量

\mathcal{L}_{\text { similarity }}^{\mathrm{MMD}}=\frac{1}{\left(N^{s}\right)^{2}} \sum_{i, j=0}^{N^{s}} \kappa\left(\mathbf{h}_{c i}^{s}, \mathbf{h}_{c j}^{s}\right)-\frac{2}{N^{s} N^{t}} \sum_{i, j=0}^{N^{s}, N^{t}} \kappa\left(\mathbf{h}_{c i}^{s}, \mathbf{h}_{c j}^{t}\right)+\frac{1}{\left(N^{t}\right)^{2}} \sum_{i, j=0}^{N^{t}} \kappa\left(\mathbf{h}_{c i}^{t}, \mathbf{h}_{c j}^{t}\right)

κ(·;·)是一个PSD内核函数。在我们的实验中我们使用了一个线性组合多个RBF内核:\kappa\left(x_{i}, x_{j}\right)=\sum_{n} \eta_{n} \exp \left\{-\frac{1}{2 \sigma_{n}}\left\|\mathbf{x}_{i}-\mathbf{x}_{j}\right\|^{2}\right\}标准差和ηn n RBF内核的重量。我们在多RBF核中包含的任何附加核都是可加的,并保证它们的线性组合保持特性。因此,有一个大范围的内核是有益的因为共享的分布特征在学习发生改变,和多RBF内核的不同组件可能会在不同的时间负责确保我们拒绝虚假的零假设,即损失是足够高时,分布并不相似的[17]。使用带MMD距离的RBF核的优点是高斯函数的泰勒展开使我们能够匹配两个总体的所有矩。需要注意的是,它需要找到最优内核带宽σn。


4 Evaluation

我们的动机是在一个干净的、合成的数据集上学习模型,并在一个嘈杂的、真实的数据集上进行测试。为此,我们评估了之前工作4中使用的对象分类数据集,包括MNIST和mist - m[8]、德国交通标志识别基准(GTSRB)[25]和Streetview House Numbers (SVHN)[20]。我们还对裁剪后的LINEMOD数据集进行了评估,该数据集是一个用于对象实例识别和三维姿态估计的标准[12,31]。我们测试了以下非监督域适应场景:(a)从MNIST到mist - m;(b) SVHN至MNIST;(c)从综合交通标志到有GTSRB的真实交通标志;(d)从在黑色背景上呈现的合成LINEMOD对象实例到现实世界中的相同对象实例。

我们通过与当前流行的神经网络视觉域自适应技术(Correlation Alignment, CORAL)[26]、域对抗神经网络(domain - against - arial neural networks, DANN)[7,8]和MMD正则化[29,17]进行比较,评估了我们的方法在第3.2节中概述的两种相似性损失中的每一种的有效性。为每一个场景中,我们提供了两个额外的基线:各自的性能在目标域模型没有域适应和训练(a)在源域(单一选项卡。1)和(b)在目标域(目标),分别作为经验低和上界。

我们还没有找到一种普遍适用的方法来优化无监督域自适应的超参数。之前的工作[8]建议使用反向验证。我们实现了这一点(详见补充材料),但是发现反向验证的精度并不总是与测试的精度很好地匹配。理想情况下,我们希望避免使用来自目标域的标签,因为可以认为,如果确实有目标域标签,则应该在培训期间使用它们。然而,在某些应用程序中,标记的目标域集不能用于培训。一个例子是使用AprilTags[21]对数据集进行标记,这是一种二维条形码,可用于标记对象的姿态,前提是摄像机经过校准,且条形码的物理尺寸已知。当从像素学习特性时,不应该使用这些图像,因为模型可能能够破译标记。但是,它们可以是训练期间不可用的测试集的一部分,并且没有标记的等价数据集可以用于无监督的域适应。因此,我们选择使用一小组标记为目标域数据的验证集比较了所有方法的超参数。所有的方法都使用相同的协议进行评估,所以比较数字是公平和有意义的。该验证集的性能可以作为非监督域自适应的一个令人满意的验证度量的上限,据我们所知,以非监督的方式验证参数仍然是一个开放的研究问题,超出了本工作的范围。

4.1 Datasets and Adaptation Scenarios

4.2 Implementation Details

所有模型均采用张量流6[1]实现,并采用随机梯度下降加动量[27]进行训练。我们最初的学习率是每20次乘以0:9;000步(mini-batches)。我们使用每个区域的32个批次共64个样本,输入图像均以均值为中心,重新缩放为[1];1]。为了避免在训练过程的早期阶段对主要分类任务的干扰,我们在10分钟后激活任何额外的域适应损失;000步的训练。在我们所有的实验中,我们的CNN拓扑结构都是基于[8]中使用的拓扑结构,以便与之前在无监督域适应方面的工作相比较。所有模型的确切架构都显示在我们的补充材料中。

4.3 Discussion

带DANN模型的DSN在所有非监督域自适应场景中都优于我们实验过的所有其他方法(见表1和表2)。使用DANN作为相似性损失(Eq. 6)比使用MMD (Eq. 7)作为相似性损失效果更好,这与仅使用MMD正则化和DANN进行域自适应得到的结果一致。为了检查软正交约束的影响(Ldifference),我们把我们最好的模型,我们的DSN模型与丹损失,和删除这些约束通过设置β系数为0。没有它们,模型在所有场景中都表现得更差。我们还通过运行我们的最佳模型,使用LL recon 2 = k1 jjx x^ jj22来验证我们选择的尺度不变的均方误差重构损失,而不是更流行的均方误差损失。随着这种变化,我们得到的分类结果也越来越差,如表3所示。将每个域的共享表示和私有表示相结合,以重构样本。单独解码共享的和私有的表示给我们提供了重构,作为我们领域适应过程的有用描述。在图2中,我们将MNIST用于MNIST- m和Synth。对象到用于此类可视化的LINEMOD场景。在前一个场景中,模型干净地将前景与背景分离,并生成一个与源域非常相似的共享空间。这是预期的,因为目标是源的转换。在后一种场景中,模型能够生成共享表示的可视化,这些共享表示在源域和目标域之间看起来非常相似,这对于分类和姿态估计非常有用。

5 Conclusion

在这项工作中,我们提出了一个深度学习模型,改进了现有的无监督领域适应技术。模型通过显式地分离每个域的私有表示以及源域和目标域之间的共享来实现这一点。通过使用现有的域共享提意见适应技术相似,和软子空间正交约束使私有和共享表征不同,我们的方法优于所有现有的无监督领域适应方法的适应情况,关注synthetic-to-real范式

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值