（2023，域泛化 & 信息论 & 特征解缠）INSURE：信息论启发的域泛化解缠结和纯化模型

EDPJ，公众号（EDPJ）

已于 2023-09-15 16:28:10 修改

阅读量2.5k

点赞数 4

分类专栏：论文笔记文章标签：深度学习人工智能

于 2023-09-15 16:02:11 首次发布

本文链接：https://blog.csdn.net/qq_44681809/article/details/132887275

版权

论文笔记专栏收录该内容

359 篇文章

订阅专栏

INSURE: An Information Theory Inspired Disentanglement and Purification Model for Domain Generalization

公众号：EDPJ（添加 VX：CV_EDPJ 进交流群获取资料）

4.A. 使用二元掩码解耦类相关和类不相关

0. 摘要

域泛化（Domain Generalization，DG）旨在通过仅在多个观察到的源域上进行训练，来学习未见过的目标域上的可泛化模型。尽管各种 DG 方法都专注于提取域不变特征，但特定于域的类相关特征引起了人们的关注，并被认为有利于泛化到未见过的目标域。为了考虑到类相关的特定领域信息，在本文中，我们提出了一种信息论启发的解缠结和纯化模型（Information theory iNspired diSentanglement and pURification modEl，INSURE），以明确地解缠潜在特征，以获得充分且紧凑（必要的）类相关特征，以泛化到未见过的领域。具体来说，我们首先提出一种信息论启发的损失函数，以确保解缠的类相关特征包含充分的类标签信息，并且其他解缠的辅助特征具有充分的领域信息。我们进一步提出了一种配对的净化损失函数，让辅助特征丢弃所有的类相关信息，因此，类相关特征将包含充分且紧凑的（必要的）类相关信息。此外，我们建议使用可学习的二进制掩码作为我们的解缠器，而不是使用多个编码器，以使解缠更有效并使解缠的特征彼此互补。我们对四个广泛使用的 DG 基准数据集（包括 PACS、OfficeHome、TerraIncognita 和 DomainNet）进行了广泛的实验。所提出的 INSURE 优于最先进的方法。我们还凭经验表明，特定领域的类相关特征有利于领域泛化。

1. 简介

大多数统计机器学习算法的基本假设是训练数据和测试数据具有独立且相同的分布 (i.i.d.)。然而，由于源数据和目标数据之间的分布变化，这种假设在实际应用中并不总是成立。例如，汽车探测器应该适应不同的环境（例如，城市到农村的转变）和恶劣的天气条件（例如，晴天到雨天的转变）[1]。经典的深度学习模型通常无法泛化到这种分布外 (out-of-distribution，OOD) 场景下的测试数据，因为不满足独立同分布 (i.i.d.) 假设。

为了缓解这种域转移问题，[2] 中引入了域泛化（DG）。在 DG 中，模型在多个域上进行训练，并在未见过的目标域上进行测试。[3] 已经证明，特征表示是通用的，并且如果它们在跨领域保持不变的话，可以转移到不同的领域。受这一理论的推动，人们提出了大量的算法 [4]-[8] 来学习跨源域的域不变特征。然而，这种领域不变的特征可能不足以实现泛化。 [9] 从理论上证明，如果源域和目标域之间的边缘标签分布显着不同，则域不变表示会降低泛化能力。此外，[10] 证明，域不变性的要求通常可能过于严格，并且可能并不总是导致一致的估计。

另一方面，特定领域的信息对于帮助泛化能力变得越来越流行。 [11] 采用了多个特定领域的神经网络，然后将它们与低秩约束对齐。然而，太多的特定于域的网络使得很难扩展到大量的源域。类似地，[12] 在网络内生成了多个掩码，每个掩码对应于训练过程中的一个域，然后对测试时从所有单个源域掩码获得的预测进行平均。主要问题是重叠惩罚不足以获取特定领域的信息。最近，[13] 通过最小化协方差矩阵和元学习（meta-learning），解耦特定领域和领域不变的潜在特征。然而，它的计算复杂度较高，包含两个编码器和三个分类器，并且涉及高维的协方差矩阵计算。此外，以前的方法只考虑了域特定或域不变特征的充分性，而忽略了冗余信息的去除。

在本文中，我们提出了一种信息论启发解缠结和纯化模型（Information theory iNspired diSentanglement and pURification modEl，INSURE），以显式解缠潜在特征 z 以获得充分且紧凑（必要）的类相关特征 z*，用于泛化到未见过的域和辅助特征 z′ 。具体来说，受信息论的启发，我们设计了一种损失函数，最小化原始特征 z 和解纠缠的 z* 之间的 KL 散度，以确保 z* 具有充分的类相关信息。为了丢弃 z* 中多余的特定领域信息，通过使用类似的信息理论启发的损失函数，z′ 被学习为包含充分的域信息。据我们所知，此类损失函数在之前的 DG 工作中尚未使用过。我们进一步提出了一个配对的净化损失函数，让 z′ 去除所有的类相关信息，从而确保 z* 包含充分且必要的（紧凑）类相关信息。我们建议使用可学习的二进制掩码作为我们的解缠器，而不是使用多个编码器，以使解缠更加有效，并使 z* 和 z′ 互补。值得一提的是，我们所有的损失项都是通过对最终目标的理论分析得出的（即，解缠充分且紧凑的类相关特征）。因此，这些损失项自然地与我们的框架保持一致，并且相互补充。

我们在这项工作中的贡献总结如下：

我们明确地解开潜在特征 z 以获得充分且紧凑的（必要的）类相关特征 z*，以泛化到未见过的域。我们提出了一种受信息论启发的损失函数，以确保 z* 包含充分的类标签信息，并且 z′ 包含充分的域信息。
我们提出了一个配对的净化损失函数，让 z′ 去除所有标签相关信息，从而确保 z* 包含充分且必要的（紧凑）类相关信息。
我们不使用多个编码器，而是使用可学习的二进制掩码作为解缠器，使解缠比传统的多个编码器更有效，并使 z* 和 z′ 自然互补。
我们对四个广泛使用的 DG 数据集进行了广泛的实验，所提出的 INSURE 优于最先进的方法。我们进一步凭经验表明，特定领域的类相关特征有利于领域泛化。

2. 相关工作

域泛化。有大量的 DG 模型 [1]、[14]，它们可以大致分为以下几类：

(1) 域对齐。这些方法迫使潜在表示在不同领域具有相似的分布 [15]-[18]。

(2) 数据增强。 DG 还可以通过数据增强来改进。各种技术利用不同的增强来模拟未见过的测试域条件，包括域随机化（domain randomization） [19]-[22]、对抗性数据增强（adversarial data augmentation） [23]-[25] 和数据/特征生成（data/feature generation） [26]-[34]。

(3) 学习策略。包括集成学习（ensemble learning） [35]、[36] 和元学习（meta-learning） [5] 在内的几种学习策略也提高了域泛化能力。

(4) 解耦表示学习。解耦表示学习的目标是将特征表示分解为可理解的组合（即领域不变和领域特定）。

[37] 解耦语义和领域因素中的潜在特征。
类似地，[38] 联合学习语义和变化编码器，以基于不变的语义特征进行解缠和推理。
[39] 提出了风格无关的网络来将风格与类别分开并减少内在风格。
[40] 通过使用三个编码器作为具有重建损失的解缠器，将潜在特征解缠成三个部分，因此它比我们的单个二进制掩模解缠器要复杂得多。它仅解开域不变的、与类相关的特征以进行推理。此外，它通过对抗性学习来解耦特征，并最大限度地减少解耦特征之间的互信息。然而，它不能确保解纠缠特征的所需特性，而我们的模型通过使用信息论来确保这些特性。
最近，[13] 解耦了域不变和域特定的潜在特征，并根据它们的串联做出最终决定。

虽然我们的 INSURE 模型属于解耦表示学习，但我们强调我们的贡献集中在解耦什么以及如何解耦。特别是，我们（1）借助辅助特征 z′ 获得充分且紧凑（必要的）类相关特征 z*，以及（2）在统一框架中使用信息论启发的解缠结和净化损失函数。此外，与之前通常采用两个编码器作为解缠器的工作相比，INSURE 模型利用可学习的二进制掩码来解缠潜在特征。 DG 技术也在各种场景中得到应用，包括但不限于少样本学习 [41]、高光谱图像分类（hyperspectral image classification） [42] 和行人重新识别（person re-identification） [43]。

DG 的信息理论学习。最近，基于信息论的方法已广泛应用于领域泛化中。

[44] 声称仅靠不变性原理是不够的，将信息瓶颈 [45] 与不变风险最小化（Invariant Risk Minimization，IRM）[46] 结合起来可以提高泛化能力。
[47] 结合信息瓶颈和条件互信息项来实现不变的因果预测。类似地，[48] 引入了元变分信息瓶颈来捕获域不变表示。
[49] 专注于单域泛化，通过最小化源图像和生成图像之间的互信息并最大化属于同一类别的样本之间的互信息来合成来自不同分布的图像。
最近，[50] 提出了一种信息论方法来提高未见过的真实数据场景的通用性，该方法利用了由统计 Fisher 信息参数化的鲁棒信息瓶颈原理 [51]。
我们的方法不是仅仅利用潜在特征中的信息瓶颈原理，而是进一步利用附加的互信息和配对纯化来解耦潜在特征，以保证与类相关的特征包含且仅包含与类相关的信息。

可学习的掩码。

[52] 涉及学习用于多任务学习的掩码，通过将学习到的掩码应用到主干网络来获得相应的任务特定网络。
在 [12] 中，作者引入了领域特定掩码来实现领域泛化的特异性和不变性之间的平衡。
[53] 构建了一个基于神经网络的对抗性掩模模块，以消除因果信息较少的劣势维度。
我们框架中的可学习二元掩码是为了解耦类相关和类无关的特征，并且它是通过对随机变量进行 sigmoid 操作来确定的，而不是从伯努利分布中采样。

3. 基础（问题设置和定义）

设 X ⊂ R^d 为输入空间，Y ⊂ R 为目标类标签空间。域由从 X × Y 上的联合分布 P_XY 采样的数据组成。在域泛化的背景下，我们给出 N 个源域

每个域 S_i 与联合分布

相关。请注意，每对域之间的联合分布是不同的。典型的域泛化框架是从 N 个源域中学习可泛化的预测函数 C : X → Y 并在未见过的测试域 S_target 上实现最小预测误差。

我们考虑一个由特征提取器 E : X → Z （其中 Z 是特征嵌入空间）和分类器 F : Z → Y 组成的学习模型。我们根据潜在特征空间 Z 与域和标签的关联将其分为四个不同的部分，维恩图如图 1（a）所示。为了简单起见，我们考虑具有两个源域 S^1 和 S^2 的情况，因此 Z_1 和 Z_2 是相应的潜在特征。令I(·;·)表示两个变量的互信息，H(·|·)表示条件熵。我们将这四个部分的定义如下：

定义 III.1。对于特征提取映射 E : X → Z，如果 ∀ i,j = 1, ...,N, i ≠ j 使得

则特征是域专属类别相关的（Domain-Specific Class- Relevant），对应于 1 (a) 中的区域 III。

定义 III.2。对于特征提取映射 E : X → Z，如果 ∀ i,j = 1, ...,N, i ≠ j 使得

则特征是域不变类别相关的（Domain-Invariant Class- Relevant），对应于 1 (a) 中的区域 IV。

定义 III.3。对于特征提取映射 E : X → Z，如果 ∀ i,j = 1, ...,N, i ≠ j 使得

则特征是域专属类别无关的（Domain-Specific Class-Irrelevant），对应于 1 (a) 中的区域 I。

定义 III.4。对于特征提取映射 E : X → Z，如果 ∀ i,j = 1, ...,N, i ≠ j 使得

则特征是域不变类别无关的（Domain-Invariant Class-Irrelevant），对应于 1 (a) 中的区域 II。

以前的工作通常首先将潜在特征分解为域特定的（区域 I+III）和域不变的（区域 II+IV），然后通过涉及类标签进一步学习域不变的类相关特征（区域 IV）信息。然而，有人认为，仍然存在来自特定领域部分（区域 III）的类相关信息，这可以提高未见过的目标领域的泛化性。为了捕获整个类相关信息，我们的目标是解耦类相关 z*（区域 III+IV）和类无关 z′（区域 I+II）中的潜在特征 z，如图 1 (b) 所示。因此，如何有效地解开这两个部分就成了一个问题。为了回答这个问题，我们在下一节中介绍我们提出的框架。

4. 提议的方法

在本节中，我们将详细描述如何在最终与类无关的辅助特征 z′ 的帮助下学习充分且必要的（紧凑）类相关特征 z*。整个框架如图 2 所示。首先，如图 2(a) 所示，我们利用二值掩模解缠器解缠原始潜在特征以获得互补特征 z* 和 z′。利用信息论保证 z* 包含充分的标签信息。为了丢弃 z* 中多余的特定领域信息，z′ 被学习为包含充分的领域信息。然后，如图 2(b) 所示，提出了配对净化损失函数来消除 z′ 中的所有标签相关信息，从而确保 z* 包含充分且必要的（紧凑）类相关信息。

4.A. 使用二元掩码解耦类相关和类不相关

如图 2 所示，输入图像 x 首先被输入特征提取器 E 以获得中间特征，称为 z，即z = E(x)，z ∈ R^k，其中 k 是特征维度。中间特征 z 耦合类相关/不相关和领域不变/特定信息。我们的目标是从 z 中提取包含充分且必要的标签信息的 z*。我们将问题转化为解耦 z 以获得与类相关的 z* 和与类无关的 z′，以充分利用来自多个源域的类标签和域索引信息，并同时训练类分类器 f 和域分类器 g。

我们将 z 的解耦视为特征选择问题，即在 z 中，有一些特征维度与类相关，而其余特征维度与类无关。因此，我们建议应用二元掩模作为我们的解缠器。更具体地说，给定中间特征 z = [z_1, ..., z_k]^⊤，我们引入掩模参数 m = [m1, ...,mk]^⊤ ∈ {0, 1}^k。类相关特征 z* 和 z′ 定义如下：

其中 ⊙ 是逐元素乘法，σ(·) 是 sigmoid 运算，~mi 是可学习变量。

与基于编码器的方法相比，使用二进制掩码解耦潜在中间特征具有以下方面的优势：

(1) 二进制掩码仅需要一个可学习向量，而不是基于编码器的解耦中使用的多个（通常基于全连接的神经网络）编码器。
(2) 使用二元掩模解耦的潜在特征彼此正交，不涉及额外的约束。
(3) 基于二值掩码的解缠器通过解缠自然地保留了所有信息，因为 z* 和 z′ 的总和等于 z。相比之下，基于编码器的解缠结需要额外的解码器来重建原始特征 z 以避免解缠过程中的信息丢失。掩模参数与特征提取器 E 和分类器 f 和 g 联合训练。
然而，二进制掩码的一个问题是我们无法直接使用反向传播来更新掩码参数。因此，我们采用直通估计器 [54] 来通过二进制掩模来近似梯度。

受信息瓶颈（IB）原理 [45]、[55] 的启发，我们还希望在解缠器之前压缩潜在表示 z，这可以通过丢弃原始输入 x 中不相关的干扰因素来提高泛化能力。因此我们在 z 上引入 IB 原理：

它鼓励 z 最大化预测能力，同时压缩来自原始图像 x 的信息，其中 ϵ ≥ 0 控制压缩。基于 [55]，−I(z; y)可以近似为经典的交叉熵损失，对于 z*，使用类标签分类的交叉熵损失，对于 z′，使用域索引分类的交叉熵损失。 I(z; x) 可以通过其变分上限最小化，该上限由

和高斯正态分布 r(z) ∼ N(0, 1) 之间的 KL 散度定义。因此，解缠结的损失函数可以写为：

其中 y 表示类标签，d 是域索引，CE 表示交叉熵。

4.B. z* 和 z′ 的充分性

我们理想的目标是学习包含 z 拥有的充分且必要的标签信息的 z*。第一步，我们确保 z* 保留对应于标签 y 的所有预测信息，即 I(z; y) = I(z*; y)。然而，互信息估计被认为是一个具有挑战性的问题 [56]。在本文中，继 [56] 之后，我们介绍了上述 “充分” 的实际计算。

定理 1. 假设潜在特征 z 足以预测标签。如果 z 和 z* 的预测分布之间的 KL 散度等于 0，则 I(z; y) = I(z*; y)，即 z* 对于标签来说也是充分的。

根据定理 1，我们为类相关特征 z* 定义基于信息论的损失：

其中 f 是类标签分类器。

z 和 z* 之间的互信息可以分解为两项 [56]、[57]：

其中 I(z; z*|y) 表示 z 中与类无关（多余）的信息。如果满足上述充分条件，即 I(z; y) = I(z*; y)，则等式 5 变为：

其中 I(z; y) 表示区域 III+IV。也就是说，虽然 z* 包含充分的标签信息，但它也可能包含来自区域 I和/或区域 II 的多余信息。为了获得紧凑的（必要的）标签信息，我们努力丢弃区域 I 和区域 II 中的多余信息。由于区域 I 包含特定领域的特征，我们考虑让 z′ 捕获所有特定领域的信息，从而强制 z* 丢弃区域 I 中的信息。

与使 z* 获得充分标签信息的努力类似，我们通过强制 I(z; d) = I(z′; d) 确保 z′ 保留所有对应于域索引的域信息，其中 d 表示域索引。根据定理 1，我们为域相关特征 z′ 定义基于信息论的损失：

其中 g 是域分类器。通过满足 I(z; d) = I(z′; d)，我们得到：

其中 I(z;d) 表示区域 I+III。

4.C. z* 的纯化

如上所述，z* 和 z′ 特征分别包含与类标签和域索引相关的充分信息。等式 4 中的 KL 散度损失强制 z* 包含区域 IV，因此 z′ 不包含区域 IV 的任何信息。然而，距离我们的最终目标（即确保特征 z* 包含充分且必要的标签信息）仍有差距，这相当于让特征 z* 包含且仅包含区域 III+IV。

首先，区域 II 的分配没有限制，因此分配到哪里并不清楚。
其次，根据等式 4 和等式 7 中的 KL 散度损失，z* 和 z′ 都竞争区域 III，因此不能保证 z* 包含整个区域 III。

为了填补第一个差距，即从 z* 中去除区域 II，我们建议应用掩模稀疏正则化（mask sparsity regularization，MSR），它可以由掩模参数向量的 L1 范数定义为：

其中 k 是 z 的维数，σ(·) 指的是 sigmoid 运算。这种损失促使 z* 通过打开潜在特征 z 中的少量元素来包含尽可能少的信息。动机是保留或删除与区域 II 相关的特征（称为域不变类无关特征）不会影响如下任何损失函数

而与保留相比，删除此特征将减少 MSR 损失，从而减少总损失。

为了填补第二个空白，即将区域 III 分配给 z*，我们提出了一种纯化策略来防止 z′ 包含任何与类相关的信息。

假设 1. 将 z*_i 表示为输入 x_i 的类相关特征，将 z′_j 表示为任何其他输入 x_j 的类无关特征。我们假设类别分布不受类别无关转移的变化的影响。因此，以下不变性条件应成立：

这一假设表明，给定一个由一个样本（例如 i）的 z* 和另一个样本（例如 j）的 z′ 组合而成的特征，其类标签预测仅取决于 z* 部分，而与 z' 的变化无关。也就是说，z′ 特征不包含任何标签信息（来自区域 III），如果包含，则等式 10 不会满足。

基于这个假设，我们建议使用

之间的距离作为配对净化损失函数，定义为

其中 ∥·,·∥ 表示均方误差（MSE）损失，f 指类别分类器，N 是样本对的数量。

总之，等式 9 帮助 z* 尽可能地丢弃区域 II，而等式 11 则帮助 z' 尽可能地丢弃区域 III，因此由于二值掩码的特性，区域 III 将被分配给 z*。

4.D. 训练和推理

在训练阶段，我们联合训练特征提取器、可学习的二元掩模和两个分类器。我们最终的损失函数是：

其中，

鼓励 z* 和 z′ 包含充分的信息，

一起进一步纯化 z*。选择 α、β、γ 作为平衡参数来调整各分量的重要性。在推理阶段，我们仅利用 z* 并根据类别分类器 f 获得最终预测。

5. 实验

本节说明了我们的方法相对于四个广泛使用的 DG 基准数据集的优越性。此外，我们还进行详细的消融研究，以确定不同成分的影响。

5.A. 实验设置

数据集。我们的模型的性能在四个流行的数据集上进行评估，包括 PACS、OfficeHome、TerraIncognita 和 DomainNet。

PACS [4] 包含来自 4 个领域 7 个类别的 9991 张图像：照片 (P)、艺术绘画 (A)、卡通 (C) 和素描 (S)。
OfficeHome [58] 总共包含 15,579 张图像，涉及 4 个风格领域的 65 个类别：艺术 (A)、剪贴画 (C)、产品 (P) 和现实世界 (R)。
TerraIncognita [59] 包含来自 4 个领域的 10 个类别的 24788 个图像。
DomainNet [60] 是领域泛化任务中使用的最新且最大的数据集。它包含总共 60 万张图像，345 个类别，来自 6 个领域：剪贴画、信息图、绘画、quickdraw、真实和素描。

实现细节。在我们所有的实验中，我们使用开源代码 Domainbed [61]。

为了简单起见，我们不应用任何模型选择或早停策略，而是仅使用在所有推理步骤之后经过充分训练的最后一个模型。
我们利用在 Imagenet 上预训练的 ResNet-50 [62] 作为所有实验中训练的初始化，并使用 Adam 优化器 [63] 优化我们的模型。
为了使预测更加稳定，遵循 [64]，我们的模型使用简单移动平均值（SMA）进行更新，从 100 次迭代开始直到训练结束。
分类器 f 和 g 都是单层 MLP。
对于可学习的二元掩码，我们将其初始化为 1，这意味着所有神经元在开始时都是打开的。
根据文献，我们在 PACS、OfficeHome 和 TerraIncognita 数据集上训练模型 5000 次迭代，在 DomainNet 数据集上训练模型 20000 次迭代，同时将所有四个数据集的批量大小设置为 32。
我们简单地设置等式 12 中每个损失项的权重为 α = 9、β = 1 和 γ = 1。在训练期间，我们固定 γ，而 α 和 β 按照指数计划缓慢增加到其最终值，因为从较大的值开始会导致编码器崩溃到一个固定值。
我们使用 Adam [63] 优化器进行训练，并将掩模参数的学习率设置为 3.5e−4，将其余架构的学习率设置为 5e−5。
对于 PACS，信息瓶颈的权重设置为 1e−7；对于 OfficeHome、TerraIncognita 和 DomainNet 数据集，信息瓶颈的权重设置为 1e−5。
对于单源域泛化任务，我们删除了信息瓶颈项，因为它会损害性能，并将掩码参数的学习率设置为 5e - 3，将其余架构的学习率设置为 5e - 5。权重参数选择为 α = 10，β = 1，γ = 1。
所有实验均使用两个 NVIDIA V100 GPU，Python 3.8.13，PyTorch 1.8.0，Torchvision 0.9.0 和 CUDA 11.1 进行。

5.B. 主要结果

我们评估 INSURE 模型，并将其与四个标准基准数据集上的最先进方法进行比较，遵循 [13]、[61]的设置。我们在表 I 中说明了结果。它表明，

与强基线（即 ERM）相比；元学习（即 MLDG [65]）；数据增强（即 Mixup [66]-[68]、SagNet [39]、RSC [69] 和 FACT [28]），我们始终取得最佳性能。
我们的方法还优于传统的特定领域学习（即 GDRO [70]、MTL [71]、ARM [72]）和领域不变学习方法（即 IRM [46]、CORAL [15]、MMD [16]、 DANN [73]、CDANN [5]、VREx [74]），表明仅关注域不变或域特定特征不足以进行域泛化。
INSURE 的性能优于 IIB [47]，后者基于信息论实现了不变因果预测，因为我们进一步解耦了潜在特征并丢弃了更多冗余信息。
此外，我们的性能优于 mDSDI [13]，它解耦了特定领域和领域不变部分中的潜在特征，然后根据它们的串联进行推理。这说明我们的解耦更加有效。请注意，我们没有重现比较方法，所有准确度数字均来自以前的论文。
从上述所有比较中，我们可以证明我们方法的有效性，并进一步揭示我们的类相关特征提供了更有用的信息，有利于领域泛化。

5.C. 消融研究

每个组件的贡献：我们对 PACS 数据集进行了广泛的消融研究，以调查 INSURE 模型中每个组件的有效性。在表 III 中，“Baseline” 模型应用二元掩模作为解缠结器，并且仅包含解缠结损失Ldis。将每个损失项单独添加到基线模型可以提高显示每个组件有效性的性能。具体来说，我们观察到将 Lmsr 和 LIT 组合到基线模型中的准确性比仅添加 Lmsr 更差。这意味着，LIT 只鼓励充分性，而 z* 仍然包含多余的信息，这往往会降低性能。通过将所有项组合在一起来实现最佳性能，这表明每个损失都是我们框架中不可或缺的组成部分。

为了进一步证明每个损失项的关联，我们在图 3 中可视化 z* 的分布，我们可以看到不同的类别更容易区分，例如，当结合所有组件时，人与其他类别之间的距离比其他方法之间的距离更大。

此外，我们利用可视化技术 [79] 以我们提出的方法学习到的 z* 形式呈现最后一个卷积层的注意图，如图 4 所示。它表明我们提出的 INSURE 更能够捕获完整的与其他类别相关的信息。以大象为例（第一行），INSURE 关注整个大象和大象附近的一些区域，表明一些特定领域的类相关信息也可以提高泛化性。

二进制掩模解缠器的验证：我们通过将所提出的二进制掩模解缠器与两个基于多编码器的模型进行比较来验证其有效性（effectiveness）和效率（efficiency）。第一个简单地用 INSURE 模型中的两个 MLP 编码器替换二进制掩模解缠器，而另一个则包含两个特征提取器 [13]。由于存在多个编码器，传统的解缠结器通常会包含额外的参数，并且由于需要额外的损失来确保解缠结的特征既独立又无损，因此需要相当大的计算代价。相比之下，我们的二元掩模解缠器只是一个可学习的向量，它直接保证解缠的特征是正交且无损的。表 IV 显示了性能、训练时间（每步）和参数数量，这展示了二元掩模解缠器的优势。

此外，我们还评估了 PACS 基准数据集上不同面罩类型的性能。虽然二进制掩码通常以硬方式使用，即所有元素只能为 0 或 1，但我们还评估了软二进制掩码的有效性。即所有元素都可以是 0 到 1 之间的连续值。在训练和推理阶段使用硬和软二进制掩码，我们在表 V 中报告结果

在训练阶段，硬掩码优于软掩码。我们认为原因是可能存在一些简单的解决方案，例如掩码的所有元素都是相同或非常相似的非零值，这使得 z* 和 z' 彼此高度相关，因此包含相同的信息，但只是不同尺度。这样一来，解耦根本就不起作用了。
在推理阶段，使用软掩码或硬掩码的性能几乎相同。

参数敏感性：在表 VI 中，我们显示了对等式 12 中不同损失项的权重参数 α、β 和 γ 的敏感性分析。当我们分析对特定参数的敏感性时，其他两个保持选定值，即 α = 9，β = 1，γ = 1。

不同的随机种子。训练过程会引入一定程度的随机性，例如训练集和验证集的分割方式、迭代数据样本的顺序、类标签分类器 f 和域索引分类器 g 的初始化等。为了再现性，我们将正文中所有实验的随机种子固定为 0。在这里，为了研究我们的模型对随机性的敏感性，我们使用随机种子进行了五次重复实验。最小、最大、平均值和标准偏差数报告于表 VII 和表 VIII 中。我们提出的方法对随机性不敏感，并且始终优于最先进的方法。

5.D. 单域泛化评估

我们还在更具挑战性的场景（单源域泛化（single-DG））中评估 INSURE 模型，其中只有一个源域可用于训练。由于它缺乏域索引信息，我们只需从框架中删除域分类器 g，即从损失函数中排除

表 IX 说明了 INSURE 模型在使用 ResNet-18 的 PACS 和使用 ResNet-50 的 DomainNet 上优于两个 SOTA 模型以及基线 ERM 模型。

5.E. 区域 III 的有效性

在本节中，我们通过仅调整最终目标函数中的配对纯化损失项来研究域特定且类相关的特征（区域 III）是否真正有助于未见过的目标域的泛化。如上所述，在等式 11 中，类分类器 f 上提出的损失函数使 z* 捕获所有区域 III。类似地，我们还可以通过在域分类器 g 上定义配对纯化损失函数来使 z* 丢弃所有区域 III，如下所示：

如表 X 所示，当 z* 包含区域 III 时的性能优于当 z* 不包含区域 III 时的性能，这表明域特定且类相关特征对于泛化性是有效的。

6. 结论

在本文中，我们提出了 INSURE 模型来显式地解耦潜在特征，以获得用于领域泛化任务的充分且紧凑（必要）的类相关特征。我们设计了基于信息论的损失函数，以确保两个解耦的特征分别包含足够的标签和域信息，并进一步提出了配对的纯化损失函数以获得充分且紧凑（必要）的类相关特征。对四个 DG 基准数据集的综合实验表明，我们提出的模型优于最先进的方法。我们还凭经验表明，特定领域的类相关特征有利于领域泛化。

参考

Yu X, Tseng H H, Yoo S, et al. INSURE: An Information Theory Inspired Disentanglement and Purification Model for Domain Generalization[J]. arXiv preprint arXiv:2309.04063, 2023.

S. 总结

S.1 主要思想

域泛化（Domain Generalization，DG）通过仅在多个观察到的源域上进行训练，来学习未见过的目标域上的可泛化模型。尽管各种 DG 方法都专注于提取域不变特征，但特定于域的类相关特征引起了人们的关注，并被认为有利于泛化到未见过的目标域。本文提出了一种信息论启发的解缠结和纯化模型（Information theory iNspired diSentanglement and pURification modEl，INSURE），以明确地解缠潜在特征，以获得充分且紧凑（必要的）的类相关特征。

本文的主要贡献：

提出一种信息论启发的损失函数，以确保解缠的类相关特征包含充分的类标签信息，并且其他解开的辅助特征具有充分的领域信息。
进一步提出了一种配对的净化损失函数，让辅助特征丢弃所有的类相关信息，因此，类相关特征将包含充分且紧凑的（必要的）类相关信息。
使用可学习的二进制掩码作为解缠器，而不是使用多个编码器，以使解缠更有效并使解缠的特征彼此互补。

S.2 基础

以前的工作通常首先将潜在特征分解为域特定的（区域 I+III）和域不变的（区域 II+IV），然后通过涉及类标签进一步学习域不变的类相关特征（区域 IV）信息。然而，有人认为，仍然存在来自特定领域部分（区域 III）的类相关信息，这可以提高未见过的目标领域的泛化性。

为了捕获整个类相关信息，本文的目标是把潜在特征 z 解耦为类相关 z*（区域 III+IV）和类无关 z′（区域 I+II），如图 1 (b) 所示。

S.3 方法

整个框架如图 2 所示。

首先，如图 2(a) 所示，我们利用二值掩模解缠器解缠原始潜在特征以获得互补特征 z* 和 z′。利用信息论保证 z* 包含充分的标签信息。为了丢弃 z* 中多余的特定领域信息，z′ 被学习为包含充分的领域信息。
然后，如图 2(b) 所示，提出了配对净化损失函数来消除 z′ 中的所有标签相关信息，从而确保 z* 包含充分且必要的（紧凑）类相关信息。