FixBi: Bridging Domain Spaces for Unsupervised Domain Adaptation, 2021CVPR
原文作者:Jaemin Na, Heechul Jung, Hyung Jin Chang, Wonjun Hwang
原文链接
引入了一种基于固定比率的混合来形成源域和目标域之间的多个增强中间域。从增强域出发,训练具有互补特性的源主导模型和目标主导模型。使用作者基于自信的学习方法,例如,使用高自信预测的双向匹配和使用低自信预测的自我惩罚,这些模型可以相互学习,也可以从其自身的结果中学习。通过作者提出的方法,模型逐渐将领域知识从源领域转移到目标领域。
在三个数据集上做实验:Office-31, Office-Home, and VisDA-2017.
上图:以前的方法试图直接适应,而不考虑大的域差异。
底部:\提出的方法利用源域和目标域之间的增广域进行有效的域适配。
Method
框架图如下
Fixed Ratio-based Mixup
使用两个固定的混合比例系数 λ s d , λ t d \lambda_{sd} , \lambda_{td} λsd,λtd 来进行数据混合。给定一对输入样本和它们在源和目标域中对应的一个硬标签: ( x i s , y i s ) , ( x i t , y ^ i t ) (x_i^s,y_i^s),\ (x_i^t,\hat{y}_i^t) (xis,yis), (xit,y^it),有如下设置:
x ~ i s t = λ x i s + ( 1 − λ ) x i t y ~ i s t = λ y i s + ( 1 − λ ) y ^ i t (1) \begin{array}{l}\tilde{x}_{i}^{s t}=\lambda x_{i}^{s}+(1-\lambda) x_{i}^{t} \\\tilde{y}_{i}^{s t}=\lambda y_{i}^{s}+(1-\lambda) \hat{y}_{i}^{t}\end{array}\tag{1} x~ist=λxis+(1−λ)xity~ist=λyis+(1−λ)y^it(1)
其中, λ ∈ { λ s d , λ t d } , λ s d + λ t d = 1 \lambda \in\{\lambda_{sd} , \lambda_{td}\},\ \lambda_{sd} + \lambda_{td}=1 λ∈{λsd,λtd}, λsd+λtd=1, y ^ i t \hat{y}_{i}^{t} y^it是由baseline model得到的伪标签,如DANN,MSTN。
利用基于固定比率的混合,作者构建了两个网络模型,作为源域和目标域之间的桥梁。这里的关键是通过混搭策略获得两个视角不同的网络。因此,作者利用了由源域主导的和目标域主导的两种不同模型,这两种模型分别由混合系数 λ s d , λ t d \lambda_{sd} , \lambda_{td} λsd,λtd得到。源主导模型对源域的监督较强,对目标域的监督相对较弱。相比之下,目标主导模式的目标监督强,源监督弱。由于这两种类型的混合并不局限于单个域,它们可以作为两个不同域之间的桥梁。
p
(
y
∣
x
~
i
s
t
)
p(y|\tilde{x}_i^{st})
p(y∣x~ist)表示模型对于输入
x
~
i
s
t
\tilde{x}_i^{st}
x~ist 产生的预测类别分布,则fixed ratio-based mixup目标函数为:
L
f
m
=
1
B
∑
i
=
1
B
y
^
i
s
t
log
(
p
(
y
∣
x
~
i
s
t
)
)
(2)
\mathcal{L}_{f m}=\frac{1}{B} \sum_{i=1}^{B} \hat{y}_{i}^{s t} \log \left(p\left(y \mid \tilde{x}_{i}^{s t}\right)\right) \tag{2}
Lfm=B1i=1∑By^istlog(p(y∣x~ist))(2)
其中, y ^ i s t = arg max p ( y ∣ x ~ i s t ) \hat{y}_{i}^{s t} =\argmax p(y|\tilde{x}_i^{st}) y^ist=argmaxp(y∣x~ist), B B B为 mini-batch size
Confidence-based Learning
通过固定比例混合,两种网络具有不同的特点,可以在互补学习中发展。为了利用这两个模型作为从源域到目标域的桥梁,作者提出了一种基于confidence的学习方法,其中一个模型使用正伪标签来教导另一个模型,或者使用负伪标签来教导自己。
正伪标签的双向匹配(Bidirectional Matching with positive pseudo-labels)
当一个网络分配给输入一个类别的概率超过一个阈值时,则认为此类别为此输入的伪标签,在此,作者将这些标签作为正向伪标签。于是,然后,训练对等网络,通过标准交叉熵损失使网络预测匹配这些正伪标签。 p , q p,q p,q分别表示两个模型的概率分布,则双向匹配的目标函数为:
L bim = 1 B ∑ i = 1 B 1 ( max ( p ( y ∣ x i t ) ) > τ ) y ^ i t log ( q ( y ∣ x i t ) ) (3) \mathcal{L}_{\text {bim }}=\frac{1}{B} \sum_{i=1}^{B} \mathbb{1}\left(\max \left(p\left(y \mid x_{i}^{t}\right))>\tau\right) \hat{y}_{i}^{t} \log \left(q\left(y \mid x_{i}^{t}\right)\right)\right. \tag{3} Lbim =B1i=1∑B1(max(p(y∣xit))>τ)y^itlog(q(y∣xit))(3)
其中, y ^ i t = arg max p ( y ∣ x ~ i t ) \hat{y}_{i}^{ t} =\argmax p(y|\tilde{x}_i^{t}) y^it=argmaxp(y∣x~it)
带有负伪标签的自我惩罚(Self-penalization with negative pseudo-labels)
负伪标签是指网络预测的置信度小于阈值的最可信标签(top-1标签)。由于负伪标签不太可能是正确的标签,我们需要增加除这个负伪标签之外的所有其他类的概率值。因此,作者将负伪标签对应的输出概率优化为接近零。自我惩罚的目的函数定义如下:
L
s
p
=
1
B
∑
i
=
1
B
1
(
max
(
p
(
y
∣
x
i
t
)
)
<
τ
)
y
^
i
t
log
(
1
−
p
(
y
∣
x
i
t
)
)
(4)
\mathcal{L}_{s p}=\frac{1}{B} \sum_{i=1}^{B} \mathbb{1}\left(\max \left(p\left(y \mid x_{i}^{t}\right))<\tau\right) \hat{y}_{i}^{t} \log \left(1-p\left(y \mid x_{i}^{t}\right)\right)\right. \tag{4}
Lsp=B1i=1∑B1(max(p(y∣xit))<τ)y^itlog(1−p(y∣xit))(4).
此外,作者还利用softmax的可学习温度来调整输出分布。
对于阈值 T \mathcal{T} T,固定的阈值不能很好地反映训练过程中不断变化的置信度,因此正伪标签和负伪标签的数量可能会偏向一边。因此论文中阈值是根据小批量样品的均值和标准差自适应变化的。
一致性正则化(Consistency Regularization)
通过正标签匹配策略,两个拥有相似特性的模型会越来越接近。作者用一个一致性正则项来确定收敛稳定性。对于中间域,混合系数 λ s d , λ t d \lambda_{sd} , \lambda_{td} λsd,λtd都被设置为 0.5 。一致性正则化损失定义为:
L c r = 1 B ∑ i = 1 B ∥ p ( y ∣ x ~ i s t ) − q ( y ∣ x ~ i s t ) ∥ 2 2 (5) \mathcal{L}_{c r}=\frac{1}{B} \sum_{i=1}^{B}\left\|p\left(y \mid \tilde{x}_{i}^{s t}\right)-q\left(y \mid \tilde{x}_{i}^{s t}\right)\right\|_{2}^{2}\tag{5} Lcr=B1i=1∑B∥∥p(y∣x~ist)−q(y∣x~ist)∥∥22(5)