前言
- domain generalization: 通过明确或隐含地提取领域不变的特征来缓解领域转移问题,旨在学习多个不同领域的不变性,以便分类器能够在未见过的测试域中稳健地利用这种不变性。
- 对比学习策略应用到监督学习中:将正样本对的潜在表征映射到一起,而负样本对在嵌入空间中的位置则更远。旨在减少嵌入空间中同级特征的距离,增加不同级特征的距离。
- 基于对比的DG方法:需要对negative data pairs进行采样。因此,其性能取决于negative data pair的数量和质量。
- 作者提出一种新的基于对比学习的领域泛化的正则化方法——自监督对比正则化。只使用positive data pairs,从而解决了由negative data pairs对采样引起的各种问题。
- 此外,作者提出了一个特定类别的领域扰动层(CDPL),这使得即使在只使用正向数据对的情况下,也可以有效地应用混合增强。
- 作者使用了两种种梯度稳定技术:损失裁剪、随机权重平均SWA、域间课程学习IDCL。专注于最小化嵌入空间中同类(正对)特征之间的距离。
方法
作者认为一个模型应该比较不同的样本来学习一个领域不变的判别表示——可以在同级输入的正数对和不同级之间的负数对之间进行比较。作者提出了监督的对比性损失,通过将 "同级 "样本的表征映射到一起,而将 "不同级 "样本的表征映射到嵌入空间的更远处,使模型正规化,以学习领域不变的表征。
公式1:计算同级潜在表征之间的不相似性。只考虑同时优化正数对的排列和表示分布的均匀性,使用一个特定类别领域扰动层
f
C
D
P
L
f_{CDPL}
fCDPL,来防止表示崩溃引起的性能下降。
为了提高计算效率,使用以下三个步骤来寻找所有的正数对:
- 首先聚类并将潜在表征 z i z_i zi整合到一个same-class group中。
- 对于每一个same-class group,通过random shuffle改变它的顺序,并且获得shuffle后的特征表示 z i c {z_{i}^c} zic
- 最终从潜在特征和shuffle后的特征中形成一个正样本对。
公式2:使用一个双域Mixup层来获得不同域的潜在特征表示。这使模型在混合分布上正规化,即来自不同领域的样本的凸组合。
公式3:计算异质批内异同度损失。
公式4:将个性化和异质性的批内异同损失应用于中间特征和分类器的对数。
由于使用的损失函数是线性形式,这往往需要适当的平衡,以便网络参数能够汇聚在一起,产生对原始分类任务也有用的领域不变的特征。作者观察到在初识训练阶段后,
L
S
e
l
f
R
e
g
L_{SelfReg}
LSelfReg成为主导,诱发梯度不平衡以阻碍适当的训练。为了缓解这个问题,作者应用了两种梯度稳定技术:(i)损失剪裁和 (ii)随机权重平均(SWA),以及 (iii)域间课程学习(IDCL)。
公式5:最终使用的损失函数。
随机权重平均法SWA:在训练过程中对来自多个局部最小值的模型参数快照进行平均,在损失空间中找到一个更平坦的最小值。(找到一个更平坦的最小值可以保证更好的泛化性能)
公式6:平均权重