介绍
DG:将从多个源域学习到的知识泛化到未知域上,主要的方法是利用统计模型对数据和标签之间的依赖关系进行建模,从而学习到独立于域的表示。然而,当依赖性随目标分布而变化时,统计模型可能无法泛化。
于是,作者引入了一个通用的结构因果模型来形式化 DG 问题。具体来说,假设每个输入都是由因果因素(与标签的关系跨域不变)和非因果因素(与类别无关)混合构成的,只有前者会导致分类判断。目标是从输入中提取因果因素,然后重建不变的因果机制。然而,由于没有观察到所需的因果/非因果因素,因此理论上的想法远非 DG 的实际应用。理想的因果因素应满足三个基本属性:与非因果因素分开、共同独立以及对分类有足够的因果关系。基于此,提出了一种因果关系启发表示学习(CIRL)算法,该算法强制表示满足上述属性,然后使用它们来模拟因果因素,从而提高泛化能力。
如图1所示,作者的目标是从原始输入X中提取因果因素S,然后重建不变的因果机制。但无法直接将原始输入分解为因果因素和非因果因素,因为因果/非因果因素通常是未被观察到且无法表述的。
假设输入数据都由两部分组成,因果的决定数据类别标签的因果变量S,和与分类无关的非因果变量U,目标是从输入中提取因果变量S,并重建真正域不变的因果机制S->Y,考虑到因果和非因果变量都是不可观测的,通过学习具有因果变量的表征来学习因果变量。
因果因素S应满足三个性质:
1)与非因果因素U分开;图a中因果变量S和非因果变量U的混合导致S中包含了一些底层的非因果信息。
2)S的因式分解应该是联合独立的; 图a中相互纠缠的因果变量会使S包含冗余信息,同时导致遗漏 了底层的一些因果信息。
3)在包含所有因果信息的意义上,对于分类任务 X -→ Y 是因果足够的。
如图2所示,与 U 的混合导致 S 包含潜在的非因果信息,而联合相关因式分解使 S 冗余,进一步导致一些潜在的因果信息的遗漏。相比之下,图 2(b)中的因果因素 S 是满足所有要求的理想因素。受此启发,作者提出了一种因果关系启发表示学习(CIRL)算法,强制学习的表示具有上述属性,然后利用表示的每个维度来模拟因果因素的分解,具有更强的泛化能力。
统计依赖:在观察到X=x的条件下预测y,这种关系是随着数据分布而变化的,还可能存在虚假相关性。
因果机制:在设置X=x的条件下预测y,这种关系是随数据分布保持不变的,并且变量间存在因果关系必然导致变量间存在统计关系。但变量间存在统计相关性并不以为着二者间存在因果相关性。
方法
因果干预模块:将因果因素S从非因果因素U的混合物中分类出来。通过干扰信息对非因果因素U进行干预,同时保持相位信息不变。
因果分解模块:因果因素的分解应该是共同独立的,因为它们不包含其他人的信息。通过最小化因果分解损失将嘈杂和相关的表示变成干净而独立的表示。
对抗掩码模块:构建了一个基于神经网络的Masker来检测劣质尺寸。通过最小化上确界和最大化下确界的分类损失来优化Masker,同时通过最小化两个监督损失来优化生成器和分类器。该模块迭代地检测包含相对较少因果信息的维度,并通过掩码器和表示生成器之间的对抗性学习迫使它们包含更多和新颖的因果信息。
实验
有表2和表3可知:CIRL 在两个主干上的所有比较方法中获得了最高的平均准确度
如图4所示:与基线方法相比,CIRL 学习的表示与类别相关性更高。以长颈鹿为例,它的长脖子可以看作是分类的因果因素之一,这正是CIRL捕捉到的。而基线侧重于非因果因素(例如,类似于鬃毛的纹理),这会导致错误分类。补充材料中给出了更多的可视化结果。