[论文阅读]Joint Pixel and Feature-Level Domain Adaptation for Recognition in the Wild

前言

这是一篇域自适应的文章,并将域自适应应用到车辆重识别场景中。本文的创新点在于,对于同一任务结合了feature-level DA(Domain ataptation)和pixel-level DA,在 feature-level观察到DANN(Domain Adversarial Neural NetWork)这种利用gan思想做无监督的域自适应方式和利用gan做SSL(semi-supervised learning)之间的联系,提出了一种DANN-CA(classfication-aware domain adversarial neural network) 并给出了自己的解释。而在pixel-level的DA其实就是将source的image变得更像target的image,这里的创新的应该就是1)改进了cyclegan将本是一对一的图像翻译改成一对多的翻译,这样就可以同时产生day and night风格图片,和基于外观流的视图合成网络(AFNet)加入2D的关键点变成KFNet网络

正文

本文的整体如图所示就是分两个思路,对feature-level做半监督学习来获得域之间的不变表示,而pixel-level选择特定的领域的变化比如光照和几何角度这两个对车辆影响比较大的因素。为什么要提出用pixle和feature结合的方式呢?因为在域自适应的过程中是一个黑匣子,我们想加入特定域的视觉信息比如光照或者几何的形变是十分困难的,feature-level的域适应的过程相对于pixle比较难以把控。而feature-level我们使用Unsupervised domain adaptation (UDA) 可以克服在目标域中缺少label的问题。因此如何有效的结合这两个域自适应方法就是本文要解决的问题了。具体来说,就是假设feature-level DA更适合半监督学习的技术,而pixel-level DA则可以中视觉信息中获得特定的域视觉信息。

1、UDA和SSL的关系

我们需要确定无监督的域自适应和半监督学习之间的关系。在这里是用UDA是使用DANN网络结构,首先看一下DANN的网络结构

整个结构利用了gan的思想,除了将feature做为class label的分类,还加了一个domain的判别器

域对抗性训练的目的是通过使两个域的特征分布难以区分,使从标记源域学习的分类器适应于未标记的目标域,通过最小化分类器误差,最大化判别器误差,使得学习到的特征表达具有跨领域不变性即学到两个域之间的不变表示。

Lc,Ld,Lf 三个loss ,Lc作为分类误差,f在被训练成正确分类的同时来混淆域判别器D,Ld作为域判别的损失函数DANN目的是最小化源域分类误差项,最大化域分类误差项,但整体目标函数是最小化问题,所以在域分类误差项前加了负号,并且引入超参数λ作为权重平衡参数。那么接着看看他与SSl之间的联系。

利用gan做半监督学习时我们的oss

可以利用任何标准的分类器进行半监督学习,只需要将gan中 generator 产生的图片加入到我们得数据集中,用一个新的类别class y=k+1来标记他们,并相应的将分类器的类别改成k+1类,我们可以用 Pmodel(y = K + 1 | x) 来表示输入x是假的概率,和原始gan中的1 − D(x)相对应,我们只要知道他对应于k个类别中的一个便行,而不需要他具体是哪一个类别,这样我们通过最大化log Pmodel(y ∈ {1, . . . , K}|x).也能从unlabeled的data中学得一些信息。举个简单例子就是没有人教你认字,但是教会你判断这是不是字对认字也会有帮助。我们希望通过将这两个损失函数联合起来,从而更好地从数据中估计出这个最优解。

可以用一个图来解释一下用gan做SSL的过程

 

即我们人为的unlabeld的数据打上了一个标签,而作者受到SSL启发,提出我们可以忽视域的概念,就是将分类器和判别器结合在一起,变成

 

整个公式中忽略了判别器,直接将第N+1类作为判别是源域还是目标域。并且作者给出了解释这样做为什么效果好,而在semi-supervised GANs是没有给出解释的,这部分推荐看一下原文。

2、Pixel-level Cross-Domain Image Translation

 

就先是通过appearance flow (AF) 的改进版加入了2D keypoints称为KFNet想生成角度变换的图片,在利用cyclegan做day和night的风格变换,使我们得源域更像目标域,而需要注意的是这些生成的图片都是当做有lable的来训练的。

在AFnet的训练时需要一组图像对,角度是作为唯一的变化因素。由于大规模采集精确控制的真实图像数据集是不可行的。因此作者提出用稀疏的2D关键点代替rgb图像作为AFnet训练和测试时的输入。

而对于光照的变化作者采用cyclegan来处理,而cyclegan的主要限制是当可能有多个输出样式时,它只生成一个输出。因此提出了一种基于属性条件的Cyclegan,通过将条件变量合并到生成器中,生成具有相同几何结构的不同输出图像。

 

当然属性集中有多个属性也会有多个G和D。其中a代表属性集合中的属性,相应的 consistency loss也要做出改变

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值