（AAAI2020）Adversarial Domain Adaptation with Domain Mixup论文笔记

最新推荐文章于 2023-12-16 16:24:58 发布

SkyrimT

最新推荐文章于 2023-12-16 16:24:58 发布

阅读量1.5k

点赞数 1

分类专栏： Domain Adaptation(CV)

本文链接：https://blog.csdn.net/weixin_43141836/article/details/111225691

版权

Domain Adaptation(CV) 专栏收录该内容

8 篇文章 1 订阅

订阅专栏

（AAAI2020）Adversarial Domain Adaptation with Domain Mixup论文笔记

文章链接
 代码链接

基于对抗方式的对齐源域数据和目标域数据。本文提出一种mixup的对齐方式。传统的对齐方式中，直接在对齐源域和目标域的特征分布。而该方法中，构造出一些minup的数据，相当于在源域的特征和目标域的特征之间建立桥梁，逐渐对齐特征。

在这里插入图片描述

图中表达的意思是，该方法将构造出一些mixup的图片，通过这些图片建立源域和目标域之间的联系，从而对齐源域的特征和目标域的特征。

模型结构

在这里插入图片描述

对于输入数据 $x^s$ 和 $x^t$ ，我们将其mixup，合并的权值使用 $\lambda$ ，即

$x^m=\lambda x^s + (1-\lambda)x^t$

将源域和目标域数据输入编码器 $N_e$ ，得到两个特征向量 $\mu$ 和 $\sigma$ 。源域的命名为 $\mu_s$ 和 $\sigma_s$ ，目标域的命名为 $\mu_s$ 和 $\sigma_t$ 。

命名时候感觉其中一个代表均值，另一个代表方差。但在代码中实现的时候， $N_e$ 是卷积层后接全连接层， $\mu$ 和 $\sigma$ 公用卷积层，卷积层后接两个全连接层分别输出 $\mu$ 和 $\sigma$

之后我们估计mixup图片的 $\mu$ 和 $\sigma$ ，估计方法同样使用 $\lambda$ 加权

$\mu_m=\lambda\mu_s+(1-\lambda)\mu_t$

$\sigma_m=\lambda\sigma_s+(1-\lambda)\sigma_t$

之后拼接起来作为解码器 $N_d$ 的输入，解码器的输入包括 $[\mu,\sigma,z,l_{cls},l_{comp}]$

$z$ 是一个噪声向量， $l_{cls}$ 代表类别向量， $l_{comp}$ 代表域类别向量。源域，目标域和mixup的标签信息为

源域： $l_{cls}^s=[0,0...,1,...,0]，l_{comp}^s=0$

目标域： $l_{cls}^t=[0,0...,0,...,0]，l_{comp}^s=1$

mixup图片： $l_{cls}^m=[0,0...,\lambda,...,0]，l_{comp}^s=1-\lambda$

$N_d$ 可以认为成一个条件生成网络，目的是产生出图片。

之后通过计算损失函数来优化参数。

损失函数

首先对于 $\mu$ 和 $\sigma$ ，我们希望数据的分布和 $N (0, 1)$ 对齐，所以使用KL散度对齐，损失函数为

$min_{N_e}L_{KL}=D_{KL}(N(\mu,\sigma)||N(0,I))$

这步损失函数表明，虽然都是卷积层+全连接层的输出。但 $\mu$ 和 $\sigma$ 在意义上是存在区别的。

之后和传统的对抗方法类似，我们让判别器D和编码器解码器进行对抗，损失函数为

$\min\limits_{N_e,N_d}\max\limits_{D}L^s_{adv}+L^t_{adv}+L^m_{adv}$

其中

$L^s_{adv}=E_{x^s\sim P_s}log(D_{dom}(x^s))+log(1-D_{dom}(x^s_g))$

$L^t_{adv}=E_{x^t\sim P_t}log(1-D_{dom}(x_g^t))$

$L_{adv}^m=E_{x^s\sim P_s,x^t\sim P_t}log(1-D_{dom}(x_g^m))$

式子中的 $x^s,x^t$ 表示源域和目标域的原始图片， $x^s_g,x^t_g,x^m_g$ 分别表示源域的生成图片，目标域的生成图片和mixup的生成图片。

损失函数中的 $L^s_{adv}$ 中 $D$ 的目标是区分出 $x_s$ 和 $x_g^s$ 的区别，而 $N_e,N_d$ 的目标是混淆 $x_s$ 和 $x_g^s$ 。我们可以将 $x_g^s$ 看成另一个领域的数据，起初， $x_s$ 和 $x_g^s$ 是两个不同的域的数据，我们希望可以将 $x_s$ 和 $x_g^s$ 对齐，与 $x_s$ 和$x_t对齐类似。所以这个损失函数和传统的对抗方法的域判别损失类似。
损失函数中的 $L^t_{adv}$ 是类似于传统对抗方法中的域判别损失的一部分。将其中的 $E_{x^t\sim P_t}log(1-D_{dom}(x^t))$ 换成了 $E_{x^t\sim P_t}log(1-D_{dom}(x_g^t))$ 。将原始图片更换成了生成图片
第三个式子的作用是将mixup的生成图片与源域对齐。

个人认为，这三个式子的目的是逐渐将目标域的图片，mixup的图片与源域的图片对齐。本文中的判别器 $D$ 和之前的判别器不同。这个判别器包括特征提取功能和判别功能（否则直接将图片输入判别器，由于特征是low-level的特征，很难进行判别和对齐）。代码中的 $D$ 的网络是卷积层+全连接层+sigmoid层实现。

综合一下上述的损失函数可以发现， $N_e,N_d$ 的目的是对图片解码编码后，生成的图片和源域图片对齐。这部分损失函数并没有使用到 $x^t$ 和 $x^m$ 。后续的soft label和triplet loss将会用到。

soft label 损失为

$\min\limits_D{L^m_{soft}}=-E_{x^s\sim P_s,x^t\sim P_t}l_{dom}^mlog(D_{dom}(x^m))+(1-l_{dom}^m)log(1-D_{dom}(x^m))$

其中 $l_{dom}^m$ 表示mixup图像的领域标签，即 $\lambda$

这个的作用是希望 $D$ 对于mixup图像，可以输出其领域标签信息为 $\lambda$

triplet loss

triplet loss中包含三类样本， $(a, p, n)$ ，分别表示取出的样本，同类的样本和非同类的样本。本文中的triplet loss并不是针对类别层面，而是针对领域层面。

如果mixup的样本的 $\lambda\geq 0.5$ ，说明这类样本更接近源域，那么 $a,p,n)=(x^m,x^s,x^t)$

如果mixup的样本的 $\lambda < 0.5$ ，说明这类样本更接近目标域，那么 $a,p,n)=(x^m,x^t,x^s)$

之后计算triplet loss，triplet loss中的偏置设定为 $|2\lambda-1|$

（代码中的 $\lambda$ 按照 $\beta$ 分布随机生成，但如果 $\lambda$ 的值比较靠近 $0.5$ ，就会修改到稍微远离 $0.5$ ）

和之前很多方法类似，我们让判别器 $D$ 拥有分类的能力，这里分类针对的是源域和目标域数据的生成图像。不同的是这里的判别器 $D$ 包括特征提取功能。所以我们只需要在卷积层后加入全连接层用于分类。

$\min\limits_{N_e,N_d,D}L_{cls}^s+L_{cls}^t$

都是交叉熵损失，目标域的标签使用分类器 $C$ 给出的伪标签。

最后还有个分类器 $C$ 的优化损失函数，分类损失 $\min\limits_{N_e,C}L_C$

文章效果

在这里插入图片描述

总结

本文的创新点在于引入mixup图像的方法，让源域和目标域的对齐不那么直接，而是通过mixup作为桥梁连接源域和目标域的对齐过程。

但这篇文章中并没有提到对齐条件概率分布（不知道是不是弄漏了）。没有在类别层面的对齐，效果依然很好，很奇怪，如果说给 $D$ 加入分类效果，其中用上了 $C$ 给的伪标签，这部分的对齐效果有这么好么？

在本文的主体部分，mixup图像以及生产图像的对齐上，并没有对齐条件概率分布的对齐。

SkyrimT

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
（AAAI2020）Adversarial Domain Adaptation with Domain Mixup论文笔记

（AAAI2020）Adversarial Domain Adaptation with Domain Mixup论文笔记文章链接代码链接基于对抗方式的对齐源域数据和目标域数据。本文提出一种mixup的对齐方式。传统的对齐方式中，直接在对齐源域和目标域的特征分布。而该方法中，构造出一些minup的数据，相当于在源域的特征和目标域的特征之间建立桥梁，逐渐对齐特征。图中表达的意思是，该方法将构造出一些mixup的图片，通过这些图片建立源域和目标域之间的联系，从而对齐源域的特征和目标域的特征。模型结构
复制链接

扫一扫