（AAAI2020）Adversarial-Learned Loss for Domain Adaptation 论文笔记

最新推荐文章于 2023-06-21 11:12:38 发布

SkyrimT

最新推荐文章于 2023-06-21 11:12:38 发布

阅读量885

点赞数 1

分类专栏： Domain Adaptation(CV)

本文链接：https://blog.csdn.net/weixin_43141836/article/details/110961994

版权

Domain Adaptation(CV) 专栏收录该内容

8 篇文章 1 订阅

订阅专栏

Adversarial-Learned Loss for Domain Adaptation 论文笔记

本文同样是在传统的对抗领域自适应模型上进行修改。本文提出一个相比于最传统的判别器输出0/1表示领域，本文中的判别器输出为分类向量，并用分类向量构造出Confusion Matrix用于优化生成器，判别器和分类器。

模型结构

在这里插入图片描述

模型中和传统对抗领域自适应方法包含的模块相似，一个特征提取器 $G$ ，分类器 $C$ 和判别器 $D$ 。 $C$ 的输出经过softmax函数后，得到每个类比的概率 $p$ ， $\hat{y}=argmax(p)$ 后的one-hot向量。

GRL和传统模型中一样，为梯度翻转层。

判别器 $D$ 的输出为一个 $K$ 维度的向量，经过sigmoid函数后得到向量 $\xi$ ，通过 $\xi$ 生成Confusion Matrix，为 $\eta$

之后通过 $\hat{y} \cdot\eta$ 得到 $\eta$ 的某一列，为 $c$ ，再分为源域或者目标域计算损失函数。

损失函数

思想来源

首先说明本文中Confusion Matrix的想法来源。

我们常常使用的交叉熵损失函数为 $L_T(x)=\sum\limits_{k=1}^K -p(y=k|x)log(p(\hat{y}=k|x))$

其中 $y$ 为真实标签，而 $\hat{y}$ 为我们预测的标签， $p(\hat{y}=k|x)$ 就是分类器的输出经过softmax后的结果，而前面的 $p (y = k ∣ x)$ 在源域中就是标签的ont-hot向量。

但在无监督领域自适应的问题中，目标域数据是没有标签的，也就是说 $p (y = k ∣ x)$ 是不知道的。一些方法中会直接使用分类器的输出作为这个，也有些方法中会用别的方法。本文中对 $L_T(x)$ 再使用一次全概率公式，得到

$L_T(x)=\sum\limits_{k=1}^K -p(y=k|x)log(p(\hat{y}=k|x))\\=\sum\limits_{k=1}^K\sum\limits_{l=1}^K-p(y=k|\hat{y}=l,x)p(\hat{y}=l|x)log(p(\hat{y}=k|x))$

其中 $p(\hat{y}=l|x)log(p(\hat{y}=k|x))$ 这部分不再包含 $y$ ，就是单纯的一个交叉熵，我们将其写为 $L(p_t,k)$ 。 $p_t$ 为目标域样本 $x_t$ 的分类器输出。文中表示 $L(p_t,k)$ 不仅可以使交叉熵，也可以是MAE等其他的损失函数。

而 $L_T$ 中的 $p(y=k|\hat{y}=l,x)$ ，我们将其命名成 $\eta_{kl}^{(x_t)}$ ，后续会提到其构造方式。

至此我们将原来的交叉熵损失函数修改为计算 $p(y=k|\hat{y}=l,x)$

Confusion Matrix的构造

我们没办法直接得到准确的 $p(y=k|\hat{y}=l,x)$ ，所以本文通过构造的方式进行估计。

$D$ 的输出经过sigmoid得到 $\xi \in R^K$ ，文中说 $\xi$ 向量表示的是伪标签=真实标签的概率，即 $\xi_k^{(x)}=p(y=k|\hat{y}=k,x)$

构造 $\eta$ 矩阵为

$ \left{ \begin{aligned} &\eta_{kl}^{{(x_t)}=\xi_k}{(x_t)} &k=l \ &\eta_{kl}^{{(x_t)}=\frac{1-\xi_l}{(x_t)}}{K-1} &k\neq l \end{aligned} \right. $

损失函数计算

通过 $\eta$ 和 $\hat{y}$ 我们可以得到 $c$ 向量。之后对于源域数据，我们构造 $y_s$ 为真实标签的ont-hot向量，而对于目标域数据，我们根据 $\hat{y}_t$ 构造 $u^{(\hat{y}_t)}_k=\left\{ \begin{aligned} &0 &k=\hat{y}_t \\ &\frac{1}{K-1} &k\neq \hat{y}_t \end{aligned} \right.$

这么构造 $u^{(\hat{y}_t)}$ 是因为我们希望判别器区分出源域的特征和目标域的特征，则损失函数为

源域： $L_{adv}(x_s,y_s)=L_{BCE}(c^{(x_s)},y_s)=\sum_k -y_{sk}log(c_k^{(x_s)})-(1-y_{sk})log(1-c_k^{(x_s)})$

目标域： $L_{adv}(x_t)=L_{BCE}(c^{(x_t)},u^{(\hat{y}_t)})=\sum_k -u^{(\hat{y}_t)}_klog(c_k^{(x_t)})-(1-u^{(\hat{y}_t)})log(1-c_k^{(x_t)})$

合并一下， $L_{adv}(x_s,y_s,x_t)=L_{adv}(x_s,y_s)+L_{adv}(x_t)$

这部分损失函数是用于让判别器 $D$ 可以区分出源域的特征和目标域的特征。判别器对于源域样本的输出是希望伪标签的类别上的结果变大，而对于目标域的输出是将其他类别增大。

同时文中加入了一个 $L_{Reg}=L_{CE}(p_D^{(x_s)},y_s)$ ，其中 $p_D^{(xs)}=softmax(D(G(x)))$

这部分是希望这个判别器还兼具分类功能。

注意前面判别部分的输入是经过sigmoid的输出，而分类的损失函数是softmax的输出。

在梯度传递过程中，sigmoid中我们增大其中一个，对其他的没啥影响，而softmax中增大其中某个，其他的就要相应减小。

话说这个用于分类的损失函数是不是和源域的 $L_{adv}$ 功能很像，理解地不是很透彻。

最后用于优化判别器 $D$ 的损失函数为

$min_D E_{(x_s,y_s),x_t}(L_{adv}(x_s,y_s,x_t)+L_{Reg}(x_s,y_s))$

之后用于优化分类器 $C$ 的损失函数包含对于源域的分类损失和对于目标域的分类损失

源域的分类损失为交叉熵损失 $L_{CE}(p_s,y_s)$

对于目标域，我们利用Confusion Matrix计算得到的 $c$ 向量计算目标域的分类损失

$L_T(x_t,L_{unh})=\sum\limits_{k,l}\eta_{kl}^{(x_t)}p(\hat{y}_t=l|x_t)L_{unh}(p_t,k)\\=\sum_kc_k^{(x_t)}L_{unh}(p_t,k)$

其中 $L_{unh}(p_t,k)=1-p_{tk}$

个人感觉这里的 $L_{unh}$ 也可以换成交叉熵之类的

最后对于分类器的损失函数为

$min_CE_{(x_s,y_s),x_t}(L_{CE}(p_s,y_s)+\lambda L_T(x_t,L_{unh}))$

对于特征提取器 $G$ 的损失函数就是分类的损失函数与判别器的损失函数结合，注意要将判别器的损失函数梯度翻转

$min_GE_{(x_s,y_s),x_t}(L_{CE}(p_s,y_s)+\lambda L_T(x_t,L_{unh})-\lambda L_{adv}(x_s,y_s,x_t))$

结果

在这里插入图片描述

就结果而言看起来不错，但他似乎没有公开代码，这么多损失函数，还是对抗方法，感觉并不是很容易收敛。

SkyrimT

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
（AAAI2020）Adversarial-Learned Loss for Domain Adaptation 论文笔记

Adversarial-Learned Loss for Domain Adaptation 论文笔记本文同样是在传统的对抗领域自适应模型上进行修改。本文提出一个相比于最传统的判别器输出0/1表示领域，本文中的判别器输出为分类向量，并用分类向量构造出Confusion Matrix用于优化生成器，判别器和分类器。模型结构模型中和传统对抗领域自适应方法包含的模块相似，一个特征提取器GGG，分类器CCC和判别器DDD。CCC的输出经过softmax函数后，得到每个类比的概率ppp，y^=argmax(p
复制链接

扫一扫