[论文阅读]Joint Pixel and Feature-Level Domain Adaptation for Recognition in the Wild

最新推荐文章于 2022-05-28 23:03:41 发布

sunxia233

最新推荐文章于 2022-05-28 23:03:41 发布

阅读量992

点赞数

本文链接：https://blog.csdn.net/sunxia233/article/details/90510575

版权

前言

这是一篇域自适应的文章，并将域自适应应用到车辆重识别场景中。本文的创新点在于，对于同一任务结合了feature-level DA（Domain ataptation）和pixel-level DA，在 feature-level观察到DANN（Domain Adversarial Neural NetWork）这种利用gan思想做无监督的域自适应方式和利用gan做SSL（semi-supervised learning）之间的联系，提出了一种DANN-CA(classfication-aware domain adversarial neural network) 并给出了自己的解释。而在pixel-level的DA其实就是将source的image变得更像target的image，这里的创新的应该就是1）改进了cyclegan将本是一对一的图像翻译改成一对多的翻译，这样就可以同时产生day and night风格图片，和基于外观流的视图合成网络(AFNet)加入2D的关键点变成KFNet网络

正文

本文的整体如图所示就是分两个思路，对feature-level做半监督学习来获得域之间的不变表示，而pixel-level选择特定的领域的变化比如光照和几何角度这两个对车辆影响比较大的因素。为什么要提出用pixle和feature结合的方式呢？因为在域自适应的过程中是一个黑匣子，我们想加入特定域的视觉信息比如光照或者几何的形变是十分困难的，feature-level的域适应的过程相对于pixle比较难以把控。而feature-level我们使用Unsupervised domain adaptation (UDA) 可以克服在目标域中缺少label的问题。因此如何有效的结合这两个域自适应方法就是本文要解决的问题了。具体来说，就是假设feature-level DA更适合半监督学习的技术，而pixel-level DA则可以中视觉信息中获得特定的域视觉信息。

1、UDA和SSL的关系

我们需要确定无监督的域自适应和半监督学习之间的关系。在这里是用UDA是使用DANN网络结构，首先看一下DANN的网络结构

整个结构利用了gan的思想，除了将feature做为class label的分类，还加了一个domain的判别器

域对抗性训练的目的是通过使两个域的特征分布难以区分，使从标记源域学习的分类器适应于未标记的目标域，通过最小化分类器误差，最大化判别器误差，使得学习到的特征表达具有跨领域不变性即学到两个域之间的不变表示。

Lc，Ld，Lf 三个loss ,Lc作为分类误差，f在被训练成正确分类的同时来混淆域判别器D，Ld作为域判别的损失函数DANN目的是最小化源域分类误差项，最大化域分类误差项，但整体目标函数是最小化问题，所以在域分类误差项前加了负号，并且引入超参数λ作为权重平衡参数。那么接着看看他与SSl之间的联系。

利用gan做半监督学习时我们的oss

可以利用任何标准的分类器进行半监督学习，只需要将gan中 generator 产生的图片加入到我们得数据集中，用一个新的类别class y=k+1来标记他们，并相应的将分类器的类别改成k+1类，我们可以用 Pmodel(y = K + 1 | x) 来表示输入x是假的概率，和原始gan中的1 − D(x)相对应，我们只要知道他对应于k个类别中的一个便行，而不需要他具体是哪一个类别，这样我们通过最大化log Pmodel(y ∈ {1, . . . , K}|x).也能从unlabeled的data中学得一些信息。举个简单例子就是没有人教你认字，但是教会你判断这是不是字对认字也会有帮助。我们希望通过将这两个损失函数联合起来，从而更好地从数据中估计出这个最优解。

可以用一个图来解释一下用gan做SSL的过程