【TPAMI 2024】单源领域自适应不可行，要做就做多源领域的，这样才酷！

最新推荐文章于 2024-10-07 06:31:57 发布

马拉AI

最新推荐文章于 2024-10-07 06:31:57 发布

阅读量1.4k

点赞数 25

文章标签：自适应人工智能 ai

本文链接：https://blog.csdn.net/Mikasa33/article/details/141954642

版权

Graphical Modeling for Multi-Source Domain Adaptation

题目：多源领域适应的图形建模

作者：Minghao Xu; Hang Wang; Bingbing Ni

摘要

多源领域自适应（MSDA）专注于将来自多个源领域的知识转移到目标领域，与常规的单源领域自适应相比，这是一个更实际且具有挑战性的问题。在这个问题中，对多个源领域和目标领域的联合建模是必不可少的，同时还需要一个有效的领域组合方案。不同领域之间的图形结构对于应对这些挑战非常有用，其中各种实例/类别之间的相互依赖性可以有效地被建模。在这项工作中，我们提出了两种类型的图形模型，即条件随机场用于MSDA（CRF-MSDA）和马尔可夫随机场用于MSDA（MRF-MSDA），用于跨领域联合建模和可学习的领域组合。简而言之，给定一个由查询样本和各种领域上的语义原型（即代表性类别嵌入）组成的观测集，CRF-MSDA模型寻求在观测条件下学习标签的联合分布。我们通过构建一个覆盖所有观测的关联图，并在其上进行局部消息传递来实现这一目标。相比之下，MRF-MSDA旨在通过基于能量的公式在不同的马尔可夫网络上建模观测的联合分布，并且它可以通过在几个特定网络上求和联合可能性来自然地执行标签预测。与CRF-MSDA相比，MRF-MSDA模型更具表现力，并且具有更低的计算成本。我们在四个具有不同领域偏移和数据复杂性的MSDA标准基准数据集上评估了这两种模型，两种模型在所有基准测试中的性能均优于现有方法。此外，分析研究阐明了不同模型组件的效果，并提供了有关跨领域联合建模性能的见解。

关键词

多源领域自适应
图形模型
条件随机场
马尔可夫随机场

1. 引言

无监督领域自适应（UDA）方法[1][2][3][4][5][6][7]假设有一个带监督的源领域，并旨在将从源领域获得的知识转移到另一个无监督的目标领域。然而，在实际应用中，假定标记数据来自单一数据分布是不合理的。实际上，这些样本始终从不同的部署环境中收集而来，即来自多个领域。例如，在目标分类任务中，可能可以访问分别在上午、下午和晚上捕获的带注释的图像，而目标是对在黎明捕获的图像进行分类。此外，天气、照明和背景的多样性也可能导致特定数据集中存在多个领域。在这种情况下的问题被称为多源领域自适应（MSDA）[8]，其中通过整合来自各种源领域的可转移知识来提高模型在目标领域上的性能。通过利用MSDA算法对齐多个领域的强大能力，我们可以更好地处理涉及变化部署环境的各种实际应用，例如自动驾驶和智能监控。

根据理论保证，目标分布可以通过多个源分布的加权组合有效地近似[8][9]，最近的工作[10][11][12][13]尝试通过在源和目标领域之间（或跨不同源领域）对齐特征分布来解决基于分类的MSDA问题，并组合多个特定领域的分类模型的预测。这些方法的核心思想是使用多个源领域学习的有条件分布的混合来接近目标领域的语义标签的条件分布。具体来说，给定来自目标领域的样本，这些方法首先使用针对每个源领域训练的分类器推导出其对应标签的概率，然后通过加权平均组合所有预测。尽管这种方案在几个MSDA基准数据集上是有效的，但由于缺乏以下两个重要模型能力，其表达性仍然受到限制。

1）跨不同领域的联合建模。现有方法通常以独立的方式学习每个领域的标签的条件分布，这只对特定于单一领域的统计数据的依赖性进行建模。事实上，不同领域统计数据之间的相互依赖性也可以有助于样本语义标签的推断。例如，根据类别特定统计的相似性，不同领域中相关联的类别可以相互联系，以便这些相关类别之间的跨领域依赖性可以得出更精确的预测（例如，如果一个图像被分类为车辆，它应该与各个领域中的车辆和其他相关类别具有足够的相似性）。因此，希望设计一个统一的模型，可以有效地捕获查询样本与所有源和目标领域之间的联合依赖性。

2）可学习的领域组合。在大多数现有工作中，领域组合通常是通过使用手工制作或模型引导的权重进行加权平均来实现的。在这些方法中，在为每个源领域学习分类模型之后，通过对来自目标领域的样本进行不同模型的预测组合来进行推理，这些预测根据各种源-目标领域对的相似性得分进行组合。这种组合方案依赖于领域关系的启发式，并且不能随着模型一起学习。更可取的是，从数据中学习领域组合，其中模型的组合部分直接根据学习目标进行优化。通过这种方式，模型可以在数据的指导下更好地表示不同领域之间的关系。

我们希望指出，不同领域之间的图形结构对于解决上述问题很有信息量。具体来说，有效的联合分布的范围可以通过图形结构明确指定，并且这种结构还使得可以跨不同领域进行可学习的消息传递。受到这些事实的启发，在这项工作中，我们探索了两种类型的图形模型，即条件随机场用于MSDA（CRF-MSDA）和马尔可夫随机场用于MSDA（MRF-MSDA）。对于跨各种领域的联合建模，两种模型引入了一组额外的随机变量，称为原型[14][15]，它们作为所有领域上语义类别的代表性嵌入。在这种基础上，这两种模型学习了两种分布在查询样本和原型上的分布，其中领域组合本质上被包含在内，并且可以与整个模型一起学习。这两种图形模型定义如下。

CRF-MSDA旨在同时对查询样本和所有原型的标签的条件分布进行建模。具体来说，我们首先为每个学习步骤构建一个图，覆盖查询样本和不同领域的原型，其中两个节点之间的连接权重由它们的相似性特征决定。然后我们使用图神经网络（GNN）在这个图上执行局部消息传递，并使用线性分类器预测每个节点的标签。在学习阶段，全局约束用于不同领域之间的类别级对齐，局部约束应用于促进原型周围的特征紧凑性。在这个模型中，通过各种领域原型之间的消息传递实现领域组合，这种组合可以随着GNN一起学习。

MRF-MSDA旨在对查询样本和所有原型的条件于马尔可夫网络上的联合分布进行建模。对于MSDA问题，我们考虑一个正马尔可夫网络，其中属于同一类别的所有原型都连接起来，查询样本与其相应领域和类别的原型相关联。此外，通过修改正网络的一些边，派生出一些负网络。我们通过在小批量中将所有正网络与所有负网络进行对比来优化由各种马尔可夫网络指定的联合分布。通过这种方式，查询样本的嵌入被鼓励与其相应类别的原型相似，与其他类别的原型不同。在此基础上，我们通过在几个特定网络上求和联合可能性来为查询样本导出分类概率，这些网络将查询样本与同一类别但来自不同领域的原型联系起来。这种方案实现了领域组合，并且可以随着来自真实标签的监督而学习。与CRF-MSDA相比，MRF-MSDA的学习涉及单个查询样本的多个马尔可夫网络（即正的和负的），因此可以学习查询样本和原型之间更多的关系模式。这种属性赋予了MRF-MSDA更强的模型表现力。

与会议论文[16]相比，这项期刊工作做出了以下额外贡献：

我们明确指出了一个MSDA模型的两个重要能力，即跨不同领域的联合建模和可学习的领域组合。
我们在CRF框架下重新组织了会议论文中提出的LtC-MSDA方法，得到了CRF-MSDA模型。
我们新颖地设计了一个完全拥有上述两种能力的模型。这个模型是基于MRF理念设计的，称为MRF-MSDA。与CRF-MSDA相比，后者只对标签之间的依赖性进行建模，MRF-MSDA可以联合捕获观察和标签之间的依赖性。
我们通过实验验证了MRF-MSDA相对于CRF-MSDA的优越性能，MRF-MSDA在多个MSDA基准测试中建立了新的最高标准。

3 条件随机场在多源领域自适应中的应用

3.1 问题定义

在多源领域自适应（MSDA）中，有 $M$ 个源领域 $S_1, S_2, ..., S_M$ 。源领域 $S_m = \{(x_{S_m}^i, y_{S_m}^i)\}_{i=1}^{N_{S_m}}$ 包含 $N_{S_m}$ 个独立同分布的标记样本，其中 $x_{S_m}^i$ 遵循源分布 $p_{S_m}(x)$ ， $y_{S_m}^i \in \{1, 2, ..., K\}$ （ $K$ 是类别的数量）表示其对应的标签。类似地，目标领域 $T = \{x_T^j\}_{j=1}^{N_T}$ 由 $N_T$ 个独立同分布的未标记样本表示，其中 $x_T^j$ 遵循目标分布 $p_T(x)$ 。此外，在所有源和目标领域上，我们为每个类别定义了一个原型（即代表性特征嵌入），记为 $KaTeX parse error: Double superscript at position 32: …_{k=1}^{K, m=1}^̲{M+1}$ ，其中目标领域被视为在此符号中的第 $(M + 1)$ 个域。

给定一个来自任意领域的查询样本 $q$ ，条件随机场在多源领域自适应（CRF-MSDA）中考虑了一个观测变量集 $X$ 和一个输出变量集 $Y$ 。查询样本的嵌入 $z_q$ 和所有原型被视为观测变量，即 $X = \{z_q; c_1^1, ..., c_{M+1}^K\}$ ，并且这些观测的语义标签作为输出，即 $Y = \{y_q; y_1^1, ..., y_{M+1}^K\}$ 。CRF-MSDA旨在建模条件分布 $p (Y ∣ X)$ ，在其中基于图上的局部消息传递来预测标签。CRF-MSDA的图形说明如图1所示。接下来，我们将介绍CRF-MSDA方法的详细学习和推理方案。

3.2 模型学习

CRF-MSDA模型旨在学习上述定义的观测变量的标签的条件分布。具体来说，对于每个学习步骤，提供一组来自不同领域的查询样本的小型批次，这些样本通过特征提取器映射到潜在空间以更新原型。之后，我们将每个查询样本和所有原型构建为一个图，并且采用图神经网络（GNN）在这个图上执行局部消息传播，从而得出结合了来自不同领域信息的观测特征表示。在这些表示上，线性分类器预测每个观测变量的类别概率，并使用真实标签进行监督。此外，我们进一步引入了全局和局部约束，分别用于领域对齐和特征紧凑性。以下部分详细介绍了这些内容。

3.2.1 原型维护

在学习阶段，原型通过采样的小批量进行更新，以更好地代表数据。具体来说，对于每个学习步骤，我们采样一个由来自所有源和目标领域的查询样本组成的小批量 $B = \{b_{S_1}, b_{S_2}, ..., b_{S_M}, b_T\}$ ，在这个小批量上得出原型的估计。对于源领域 $S_m (1 \leq m \leq M)$ ，估计的原型 $\bar{c}_{m_k}$ 定义为属于类 $k$ 的查询样本集中所有样本的平均嵌入：

$\bar{c}_{m_k} = \frac{1}{|b_{S_k^m}|} \sum_{(x_{S_m}^i,y_{S_m}^i) \in b_{S_k^m}} f(x_{S_m}^i)$

其中 $b_{S_k^m}$ 是 $b_{S_m}$ 中属于类别 $k$ 的所有样本的集合， $f$ 代表特征提取器，它将图像映射到低维嵌入向量。

对于目标领域 $T$ ，由于真实标签不可用，我们首先通过伪标签策略为 $b_T$ 中的样本分配伪标签，然后定义目标领域中类别 $k$ 的估计原型 $\bar{c}_{M+1_k}$ 如下：

$\bar{c}_{M+1_k} = \frac{1}{|b_{T_k}|} \sum_{(x_T^i, \hat{y}_T^i) \in b_{T_k}} f(x_T^i)$

其中 $\hat{y}_T^i$ 是分配给 $x_T^i$ 的伪标签， $b_{T_k}$ 表示在 $b_T$ 中被标记为第 $k$ 类的样本集合。

使用这些由小批量引导的估计，我们通过指数移动平均方案更新各个领域的原型：

$c_{m_k} = \beta \bar{c}_{m_k} + (1 - \beta) \bar{c}_{m_k}$

其中 $\beta$ 表示指数衰减率，在所有实验中固定为0.7。这种维护策略可以通过减少小批量采样引入的方差来得出更平滑的原型估计。在文献[15]、[72]、[73]中，类似的策略已被探索，以通过更平滑的全局变量稳定学习过程。

3.2.2 图形建模

在CRF-MSDA模型中，我们根据图确定的上下文预测观测变量的标签，该图模拟了条件分布 $p (Y ∣ X)$ 。具体来说，对于一个查询样本 $\in B$ ，我们定义观测变量集，其嵌入 $z_q = f(q)$ 和所有原型，即 $X = \{z_q; c_1^1, ..., c_{M+1}^K\}$ ，并且这些观测进一步构建为图 $G = (V, E)$ 。在这个图中，节点集 $V$ 与 $X$ 相同，所有节点由具有相同维度的嵌入向量表示，边集 $E = \{(u, v, A_{uv})\}$ 描述了观测之间的相互关系，其中 $A_{uv}$ 表示节点 $u$ 和 $v$ 之间的邻接权重。在实践中，我们通过将径向基函数(RBF)核 $K$ 应用于两个节点的嵌入来派生邻接权重 $A_{uv}$ ：

$A_{uv} = K(X_u, X_v) = \exp\left(-\frac{\|X_u - X_v\|^2}{2\sigma^2}\right)$

其中 $X_u$ 和 $X_v$ 分别代表节点 $u$ 和 $v$ 的嵌入， $\sigma$ 是带宽参数。注意，所有节点对的邻接权重形成了图的邻接矩阵，即 $\in \mathbb{R}^{|V| \times |V|}$ 。

基于这样的图，我们寻求学习有效的节点表示，通过从邻居那里聚合信息，并以分解的方式进行标签预测：

$\prod_{v \in V} p(y_v|X)$

按照上述公式，图神经网络(GNN) $g$ 被用来通过在不同节点之间传播消息来产生节点表示，并且在线性分类器 $c$ 上，输出每个节点的分类概率。具体来说，节点 $v$ 的标签预测如下：

$\quad \hat{y}_v = p(y_v|X) = c(h_v)$

其中 $\in \mathbb{R}^{|V| \times d}$ 是由GNN产生的所有节点的表示（ $d$ 表示维度）， $h_v$ 是节点 $v$ 的表示， $\hat{y}_v$ 表示该节点的标签预测。

3.2.3 学习目标

在模型学习中，我们旨在促进特征表示的可判别性和领域不变性，通过约束分类和对齐的两种目标函数来实现。以下是详细的方法。

分类约束

我们定义了几个分类约束，以增强标签预测的特征可判别性。在观测集 $X$ 中，原型由其对应的类别标记（例如，原型 $c_{mk}$ 属于类别 $k$ ），这定义了以下交叉熵目标函数：

$proto_cls = − 1 ( M + 1 ) K ∑ m = 1 M + 1 ∑ k = 1 K log ⁡ y ^ m k k ∗ L_{\text{proto\_cls}} = -\frac{1}{(M+1)K} \sum_{m=1}^{M+1} \sum_{k=1}^{K} \log \hat{y}_{mk}^{k*}$

这里 $\hat{y}_{mk}^{k*}$ 表示原型 $c_{mk}$ 对于第 $k$ 类的分类概率，并且这个类别预测是基于原型 $c_{mk}$ 的GNN后表示进行的，通过消息传递更好地代表了其相应的语义类别。对于查询样本 $q$ ，当它来自源域时，真实标签 $y_q$ 是可用的。使用小批量 $B$ 中的所有源域样本作为查询，我们为源域导出了以下监督目标函数：

$src_cls = − 1 M ∑ m = 1 M ∑ ( q , y q ) ∈ b S m log ⁡ y ^ q y q ∗ L_{\text{src\_cls}} = -\frac{1}{M} \sum_{m=1}^{M} \sum_{(q,y_q) \in b_{Sm}} \log \hat{y}_q^{y_q*}$

这里 $\hat{y}_q^{y_q*}$ 表示查询样本的分类概率，用于其标签指定的类别。另一方面，当查询样本来自目标域时，我们无法访问真实注释。因此，我们采用了一个熵诱导约束，这有助于对来自目标域的样本进行更确定性的预测：

$tgt_cls = − ∑ q ∈ b T ∑ k = 1 K y ^ q k log ⁡ y ^ q k L_{\text{tgt\_cls}} = -\sum_{q \in b_T} \sum_{k=1}^{K} \hat{y}_q^k \log \hat{y}_q^k$

为了正确分类使用不同查询样本从小批量建立的各种图的节点，整体分类目标函数由原型、源域查询和目标域查询的三个项组成：

$proto_cls + L src_cls + L tgt_cls L_{\text{cls}} = L_{\text{proto\_cls}} + L_{\text{src\_cls}} + L_{\text{tgt\_cls}}$

对齐约束

除了追求特征可判别性外，我们还期望各种域的特征分布是不变的，尤其是这种领域不变性最好是在类别级别上实现的。形式上，源和目标域的样本的边际分布可以表示为与不同类别相关的条件分布的总和：

$p_{S_m}(x) = \sum_{y \in Y} p_{S_m}(y) p_{S_m}(x|y)$

$p_T(x) = \sum_{y \in Y} p_T(y) p_T(x|y)$

这里 $Y$ 表示所有类别的集合。在边际分布的类别 $p (y)$ 在不同域中相同（即，来自各种类别的样本比例是领域不变的）的假设下，我们的目标是对齐所有域上的条件分布 $p (x ∣ y)$ （ $\in Y$ ）。为了实现这一目标，我们在潜在空间的全局层面上追求类别级别的领域对齐，并且从局部角度约束各种原型周围的特征紧凑性。

对于全局目标，我们期望两个任意类别在所有域中的相关性是一致的。具体来说，我们提取邻接矩阵的前 $(M + 1) K$ 行和列，记为 $\bar{A} = A_{1:(M+1)K, 1:(M+1)K}$ ，其中块矩阵 $\bar{A}_{ij} = \bar{A}_{(i-1)K+1:ik}^{(j-1)K+1:jk}$ （ $\leq i, j \leq M+1$ ）测量第 $i$ 个和第 $j$ 个域中所有类别的相关性。当各种域在类别级别上很好地对齐时，这些块矩阵应该彼此相似，这导致以下领域对齐的目标函数：

$L_{\text{global}} = \frac{1}{(M+1)^2} \sum_{i,j,m,n=1}^{M+1} \|\bar{A}_{ij} - \bar{A}_{mn}\|_F$

这里 $\| \cdot \|_F$ 是Frobenius范数。在这个函数中，通过约束块矩阵的主对角线元素，增强了类内不变性；通过约束块矩阵的其他元素，促进了类间关系的一致性。

对于局部目标，我们期望查询样本围绕其相应的原型紧凑地嵌入，这通过派生在不同类别之间更分离的特征来简化类别级别的对齐。具体来说，我们用以下目标函数约束小批量 $B$ 中的样本嵌入：

$L_{\text{local}} = \frac{1}{|B|} \sum_{k=1}^{K} \left( \sum_{m=1}^{M} \sum_{(x_{S_m}^i,y_{S_m}^i) \in b_{S_k^m}} \|f(x_{S_m}^i) - c_{mk}\|_2^2 \right. + \left. \sum_{(x_T^i, \hat{y}_T^i) \in b_{T_k}} \|f(x_T^i) - c_{M+1k}\|_2^2 \right)$

这里 $b_{S_k^m} (1 \leq m \leq M)$ 和 $b_{T_k}$ 分别代表属于样本集 $b_{S_m}$ 和 $b_T$ 中第 $k$ 类的样本。

整体学习目标

结合分类和对齐约束，特征提取器 $f$ 、GNN $g$ 和分类器 $c$ 的整体学习目标定义如下：

$\min_{f,g,c} L_{\text{cls}} + \lambda_1 L_{\text{global}} + \lambda_2 L_{\text{local}}$

这里 $\lambda_1$ 和 $\lambda_2$ 是权衡不同学习目标之间的权衡参数。

3.3 模型推理

在学习阶段之后，我们存储特征提取器 $f$ 、GNN模型 $g$ 、线性分类器 $c$ 和所有原型 $KaTeX parse error: Double superscript at position 30: …_{k=1}^{K, m=1}^̲{M+1}$ 。在推理阶段，给定一个查询样本 $q$ ，我们首先使用提取器 $f$ 提取其嵌入 $z_q$ ，并将嵌入与所有原型结合形成观测集 $X = \{z_q; c_1^1, ..., c_{M+1}^K\}$ 。之后，按照3.2.2节中的方案构建一个图 $G$ 。在这个图上，连续应用GNN $g$ 和线性分类器 $c$ 来推导出所有节点的标签预测。最后，我们将查询样本对应的节点的预测作为输出。

4 马尔可夫随机场在多源领域自适应中的应用

4.1 问题定义

在本模型中，源域和目标域以及原型的定义与第3.1节中所述相同。不同于CRF-MSDA模型，给定一个来自任意域的查询样本q，马尔可夫随机场在多源领域自适应中的应用（MRF-MSDA）旨在基于马尔可夫网络G的条件下，对所有观察变量（即查询样本的嵌入和所有原型）的联合分布进行建模，表示为 $p(X|G) = p(z_q, c_1^1, ..., c_{M+1}^K | G)$ 。在所有观察结果之上，形成了一个正的马尔可夫网络，用以描述它们之间的期望相互依赖性。具体来说，属于同一类别的所有原型都相互连接，查询样本与其对应的域和类别的原型相连。此外，通过修改正网络中的一些边，派生了负的马尔可夫网络用于比较。通过对这些不同网络的联合分布进行学习，引导模型将查询样本与相关原型连接起来，从而实现标签预测。MRF-MSDA的图形说明见图2。接下来的部分将详细介绍模型学习和推理方案。

4.2 模型学习

在一组观察结果之上，MRF-MSDA模型预期能够通过对联合分布建模来区分正的马尔可夫网络和负的网络，并且可以通过对特定几个将查询样本与类别内原型相连的马尔可夫网络的联合可能性进行求和，进一步用于标签预测。具体来说，我们使用基于能量的公式来表示特定马尔可夫网络上观察结果的联合分布，并且通过噪声对比估计（NCE）[74][75]来学习各种马尔可夫网络的联合分布。此外，查询样本的真实标签标签被用于监督基于联合可能性的标签预测。与CRF-MSDA中通过移动平均更新原型不同，在MRF-MSDA中，原型作为模型参数之一，并与整个模型一起学习。接下来，我们将详细阐述模型学习的细节。

4.2.1 图形建模

联合分布建模。在MRF-MSDA模型中，观察结果的联合分布在各种马尔可夫网络上被建模。具体来说，对于一个查询样本q，其嵌入 $z_q = f(q)$ 与所有原型一起作为观察变量，即 $X = \{z_q, c_1^1, ..., c_{M+1}^K\}$ 。注意，MRF-MSDA模型使用CNN编码器f将查询样本q映射到低维嵌入 $z_q$ ，而此模型中的原型由可学习的嵌入向量 ${c_1^1, ..., c_{M+1}^K\}$ 表示，遵循传统的图嵌入方法[76][77][78]。在这些观察结果之上，预期同一类别内的原型是相互关联的，查询样本与对应域和类别的原型最相关，这定义了一个正马尔可夫网络 $G^+ = (V, E^+)$ 。在此网络中，节点集V与观察结果集X相同，所有节点的嵌入具有相同的维度，边集 $E^+ = \{(u,v)\}$ 反映了如上所述的观察结果之间期望的关系。我们为任意查询在图2(b)中图形化地说明了G+的结构。基于正网络G+，我们通过随机修改其中的一些边进一步构建Nneg个负马尔可夫网络 $\{G^-_n = (V, E^-_n)\}^N_{n=1}$ （关于边修改方案的细节在第5.1节中说明）。在特定马尔可夫网络G上，我们使用基于能量的公式定义观察结果的联合可能性，如下所示：

$\frac{1}{Z} \exp(-f_E(X, G) )$

$f_E(X, G) = \frac{1}{t} \sum_{(u,v) \in E} \|X_u - X_v\|^2_2$

其中Z代表划分函数，t表示温度参数，Xu和Xv分别表示节点u和v的嵌入（这两个节点在网络G中是相连的）。能量函数fE对网络中所有边的能量求和。使用这样的联合可能性定义，我们基于最大似然估计（MLE）进行模型学习，具体的学习目标在第4.2.2节中介绍。

基于联合可能性的标签预测。考虑到观察变量背后的语义，我们提议使用在几个特定马尔可夫网络上定义的联合可能性来推导查询样本的分类概率。例如，我们考虑这样一种情况：同一类别内仅有原型相互关联，查询样本q属于第k类并且来自第m个域（1 ≤ m ≤ M + 1），其中目标域被视为第(M + 1)个域。对于这种情况，相应的马尔可夫网络被记作Gm,k，在其中为K个类别形成了K个团，即同一类别内的所有原型都相互连接，查询样本与原型cm,k相连。利用在Gm,k上的观察结果的联合可能性，我们定义查询样本q属于第m个域的第k类的概率如下：

$p(y_d = m; y = k|q) = \frac{1}{N} p(X|G^m_k)$

$\sum_{m=1}^{M+1} \sum_{k=1}^K p(X|G^m_k)$

其中随机变量yd表示域标签，N是归一化常数。通过对所有域求和概率p(y_d = m; y = k|q)，我们推导出查询q在第k类的分类概率如下：

$\hat{y}_q^{[k]} = p(y = k|q) = \sum_{m=1}^{M+1} p(y_d = m; y = k|q)$

4.2.2 学习目标

对于MRF-MSDA模型的学习，我们旨在提升模型对标签预测的辨识能力，并同时最大化正马尔可夫网络上的可能性，同时最小化负网络上的可能性。这两个学习目标分别通过分类约束和最大似然估计（MLE）来追求。具体方法如下。

分类约束。我们使用两个分类约束来增强模型在源域和目标域上的辨识能力。具体来说，对于每个学习步骤，我们从源域和目标域中抽取一个查询样本小批量B = {bS1, bS2, …, bSM; bT}。考虑到目标域上的真实标签不可用，我们遵循方程8和9中的形式，获得源域的监督约束Lsrc_cls和目标域的无标签约束Ltgt_cls。对于这两种类型的域上的辨识模型，整体分类目标函数将两个约束结合起来，如下所示：

$L_{cls} = L_{src_{cls}} + L_{tgt_{cls}}$

最大似然估计（MLE）。除了辨识建模外，我们还希望模型能够识别观察结果之间的正确相互关系。我们通过增强正马尔可夫网络的可能性并减少负网络的可能性来追求这一目标。这一方案引导模型将更高的似然度赋予连接查询样本与相关原型的网络，这有利于标签预测。

然而，由于确切评估划分函数的复杂性，直接优化方程（16）中定义的联合可能性是很困难的。作为替代，受到噪声对比估计（NCE）[74][75]思想的启发，我们提议在对比正马尔可夫网络与负网络时，优化未归一化的联合可能性，即 $\tilde{p}(X|G) = \exp(-f_E(X, G))$ 。在实践中，为了为目标域中的查询样本构建正网络，我们再次采用[40]提出的伪标签方案，为目标域bT中的样本分配伪标签。形式上，我们定义以下基于MLE的目标函数：

$L_{MLE} = -\frac{1}{|B|} \sum_{q \in B} \frac{\tilde{p}(X|G^+)}{\sum_{n=1}^{N_{neg}} \tilde{p}(X|G^-_n) }$

其中|B|表示批量大小，G+和G^-_n(1 ≤ n ≤ Nneg)分别是查询q的正和负马尔可夫网络。划分函数在上述表达式中自然消失，这是通过对比正网络上定义的联合可能性与负网络相关联的似然度实现的。

通过使用这样的目标函数进行优化，可以同时实现两个期望属性：（1）查询样本的嵌入被鼓励接近其对应域和类别的原型；（2）来自不同域但在同一类别中的原型在潜在空间内被对齐，即实现域不变性。

整体目标。在MRF-MSDA模型中，原型集合 $\{c_{m}^{k} | k = 1 \ldots K, m = 1 \ldots M+1 \}$ 与特征提取器 $f$ 一起被优化，以最小化分类和基于MLE的目标函数，如下所示：

$\min_{f,C} L_{cls} + \alpha L_{MLE}$

其中 $L_{cls}$ 是分类损失函数， $L_{MLE}$ 是基于最大似然估计的损失函数， $\alpha$ 是用于平衡两个目标的权衡权重。

4.3 模型推理

当模型学习完成后，我们保存特征提取器 $f$ 和所有原型 $C$ 。在推理阶段，给定一个查询样本 $q$ ，通过特征提取器提取其嵌入 $z_q$ ，并与所有原型形成观察集合 $X = \{z_q, c_1^1, ..., c_{M+1}^K\}$ 。之后，按照第4.2.1节中提出的标签预测方案，我们通过求和特定几个马尔可夫网络上观察结果的联合可能性来推导出查询样本的分类概率。

4.4 CRF-MSDA与MRF-MSDA的比较

在本节中，我们从两个方面比较提出的CRF-MSDA和MRF-MSDA模型，即模型表达能力和计算复杂性，以阐明这两种图形模型的有效性。

4.4.1 模型表达能力

给定一组观察结果 $X = \{z_q, c_1^1, ..., c_{M+1}^K\}$ ，由查询样本嵌入和所有域上的原型组成，CRF-MSDA旨在对它们对应的标签 $Y = \{y_q, y_1^1, ..., y_{M+1}^K\}$ 的条件联合分布进行建模，即 $p (Y ∣ X)$ 。相比之下，MRF-MSDA旨在对观察结果和标签的联合分布进行建模，即 $p (X, Y)$ 。因此，与CRF-MSDA相比，MRF-MSDA不仅可以捕获标签之间的依赖性，还可以捕获不同观察结果之间的依赖性。实际上，观察结果之间的依赖性对于预测更准确的标签是有用的。例如，它可以将相关/不相关的观察结果的标签预测约束为相似/不相似。这种优势赋予了MRF-MSDA更强的模型表达能力。

4.4.2 计算复杂性

我们逐步比较两种模型处理单个查询样本的计算复杂性。对于特征提取和标签预测步骤，两种模型的学习与推理时间复杂度是相同的。然而，对于图构建步骤，两个阶段的时间复杂度不同，因此我们分别讨论学习和推理的复杂度。

特征提取：给定一个查询样本，两种模型都使用特征提取器来获得查询的嵌入，具有相同的计算成本。

图构建：这一步的计算复杂性在学习和推理阶段是不同的。在学习阶段，由于原型是在线更新的，图构建涉及到所有原型和查询样本的计算。CRF-MSDA模型构建的关系图G需要计算 $(M + 1) K$ 个原型和查询样本之间的成对邻接权重，因此时间复杂度等于 $O(M^2K^2)$ 。对于MRF-MSDA模型，建立了一组马尔可夫网络 $\{G_m^k | k = 1 \ldots K, m = 1 \ldots M+1 \}$ 。这些网络在原型之间具有相同的连接（即，为K个类别形成K个团），并且有一个不同的边将查询样本链接到 $(M + 1) K$ 个不同的原型。为了推导这些网络上观察结果的联合可能性，计算 $M (M + 1) /2 K$ 个原型对之间的能量以及 $(M + 1) K$ 个查询样本与每个原型之间的能量，具有时间复杂度 $O(M^2K)$ 。因此，在学习阶段的这一步骤中，MRF-MSDA比CRF-MSDA计算效率更高。

在推理阶段，原型是固定的，因此邻接权重（对于CRF-MSDA）和能量（对于MRF-MSDA）在原型之间可以预先计算。因此，给定一个查询样本，其余的计算仅在查询样本和原型之间进行，对于两种模型都有 $O (M K)$ 的时间复杂度。这样，在推理期间，CRF-MSDA和MRF-MSDA在图构建方面的计算成本是相同的。

标签预测：CRF-MSDA模型通过在构建的图上执行消息传递的GNN模型，并使用线性分类器预测查询的标签。相比之下，MRF-MSDA的标签预测仅需要在联合可能性上进行基本的算术计算，这是无模型的，更有效。

总结来说，对于单个查询样本的处理，无论是在学习还是推理中，MRF-MSDA模型在计算效率方面都优于CRF-MSDA模型。在第6.3节中，我们进一步进行了实证时间复杂性分析，以验证上述观点。

5 实验

在本节中，我们首先描述了实验设置，然后将所提出的模型与各种MSDA基准数据集上的现有方法进行了比较，以证明其有效性。

5.1 实验设置

模型细节。对于CRF-MSDA模型，我们采用了两层的图卷积网络[83]模型来在观测之间传播消息，并且，对于关系图的每个节点，一个线性分类器将其d维特征表示映射到K维分类概率。对于MRF-MSDA模型，我们考虑了两种基于正网络派生负马尔可夫网络的方式：(1) 删除查询样本与其对应原型之间的链接，并在同一个域中但属于不同类别的其余K-1个原型中任选一个连接查询样本，这定义了K-1个负网络；(2) 我们另外随机选择两个与不同类别相关的原型并将它们连接，这定义了其他N2个负网络。总体上，对于每个查询样本，我们使用 $N_{neg} = N_2 + K - 1$ 个负网络与正网络进行对比。

训练细节。我们在表1中列出了四个不同数据集的基本训练设置。这些数据集的设置差异主要是由于数据复杂性的不同，这遵循了文献[10]、[11]、[12]、[16]中的常见实验设置。在所有实验中，我们采用Adam[72]优化器（权重衰减：5e-4）来训练模型。对于本节中所有的比较，我们为两个提出的方法使用以下参数设置：(1) 对于CRF-MSDA，权衡参数λ1和λ2分别设置为20和0.001，带宽参数σ设置为0.005；(2) 对于MRF-MSDA，权衡权重α设置为1.0，温度参数t设置为0.1，负采样大小Nneg设置为K+5（即，通过上述第二种采样方式为每个查询样本采样6个负网络）。所有这些参数设置都是通过在Digits-five数据集的!mm任务（一个在Digits-five数据集上的MSDA任务）的源域验证集上进行网格搜索确定的。为了简化，我们使用“! D”表示从其他领域转移到领域D的任务。我们的方法是使用PyTorch[84]实现的，源代码将发布以供重现。

性能比较。我们比较我们的方法与现有方法，以验证其有效性。为了公平比较，我们引入了三个标准。(1) 最佳单一源：我们报告所有源中单一源领域自适应算法的最佳性能。(2) 源组合：所有源域数据被合并为一个单一源，以传统单一源方式执行领域自适应。(3) 多源：从多个源领域学习的知识被转移到目标领域。对于前两种设置，我们引入了先前的单一源UDA方法，例如DAN[1]、JAN[82]、DANN[81]、ADDA[4]、MCD[6]，进行比较。对于多源设置，我们比较了我们的方法与几种现有的MSDA算法，例如MDAN[10]、DCTN[11]、M3SDA[12]、MDDA[13]和CMSS[51]。我们报告了这些方法在Digits-five和DomainNet的Peng等人[12]、在Office31的Zhao等人[13]和在PACS的Yang等人[51]上的性能。

5.2 在Digits-Five上的实验

数据集。Digits-five数据集由五个数字图像领域组成，包括MNIST (mt) [86]、MNIST-M (mm) [81]、SVHN (sv) [87]、USPS (up) [88]和合成数字 (syn) [81]。每个领域包含从0到9的十个类别。按照DCTN [11]的设置，我们在MNIST、MNIST-M、SVHN和合成数字上分别抽取了25000张图像用于训练，6000张图像用于验证，9000张图像用于测试，而整个USPS数据集作为领域。报告的结果是在相同配置下五次独立运行的平均值。

结果。在表2中，我们比较了提出的CRF-MSDA和MRF-MSDA模型与其他工作。仅源表示仅使用源域数据训练的模型，作为基线。与最先进的CMSS [51]方法相比，CRF-MSDA在“!mm”任务上取得了显著的性能提升，并在所有任务的平均准确率上超越了它。MRF-MSDA模型在五项任务中的四项上表现最佳，并且与以前的方法相比，性能提高了12.1%。这些有希望的结果展示了我们方法中首次探索的跨领域联合建模和可学习领域组合的有效性。MRF-MSDA在所有五项任务上都优于CRF-MSDA，这主要归功于它使用正和负马尔可夫网络探索了更多样化的观测关系模式。

5.3 在Office-31上的实验

数据集。Office-31 [79]是一个经典的领域自适应基准测试，包含31个类别和4652张图像。它包含三个领域，即亚马逊(A)、网络摄像头(W)和DSLR(D)，数据收集自办公环境。亚马逊的数据来自amazon.com，而网络摄像头和DSLR的数据分别由网络摄像头和数字单镜反光相机在不同条件下拍摄。A、W和D中分别有2817张、795张和498张图像。我们的方法通过五次独立运行进行评估，并按照MDDA [13]报告平均准确率。

结果。表3比较了我们的方法与现有算法在三项任务上的性能。MRF-MSDA模型在平均准确率方面优于最先进的MDDA [13]方法0.5%，而CRF-MSDA模型与MRF-MSDA表现相当。在这个数据集上，我们的方法没有明显的优势，这可能归因于两个原因。(1) 首先，在“!D”和“!W”任务上出现了性能饱和，其中仅源模型的性能高于95%。(2) 其次，网络摄像头和DSLR领域高度相似，这限制了我们框架中跨领域联合建模的优势，特别是在“!A”任务上。

5.4 在PACS上的实验

数据集。PACS [80]数据集包括4个领域，即照片（P）、艺术绘画(A)、卡通（C）和素描(S)。每个领域包含7个类别，并且不同领域之间存在显著的领域偏移（即，不同的绘画风格）。按照前两项工作[51]、[52]，只有采用多源设置的方法才用于比较。我们报告了模型在五次独立运行上的平均性能和标准差。

结果。表4报告了各种方法在四项任务上的性能。可以看出，提出的CRF-MSDA模型与CMSS [51]方法表现相当。MRF-MSDA在所有四项任务上均实现了最高准确率，特别是在“!S”任务上获得了4.7%的性能提升。MRF-MSDA的优越性能主要归因于其探索了多样化的领域内和领域间关系，这在不同领域之间分布差距较大时，能够实现更精确的标签预测。

5.5 在DomainNet上的实验

数据集。DomainNet [12]迄今为止是最大和最具挑战性的MSDA数据集。它包含约60万张图像和6个领域，即剪贴画(clp)、信息图表(inf)、绘画(pnt)、速写(qdr)、真实(rel)和素描(skt)。每个领域包括相同的345个常见对象类别。报告的模型性能是五次独立运行的平均值，使用相同的设置。

结果。表5展示了各种方法在DomainNet上的性能。CRF-MSDA和MRF-MSDA在这个数据集上表现相当，后者在六项任务中的五项上取得了最佳性能。特别是，平均准确率提高了1.4%。这个数据集的主要挑战是数据分布的复杂性，这由两个因素造成：(1) 不同领域之间存在较大的分布差距，例如从真实图像到素描；(2) 每个领域内众多的语义类别导致更复杂的单一领域数据分布。CRF-MSDA模型通过进行类别级别的领域对齐和促进特征紧凑性来缓解这种困境，而MRF-MSDA模型则通过在各种观测上建模联合分布来解决这种复杂的数据分布，这是一种更直接的方案，在实践中表现更好。

6 分析

在本节中，我们对所提出的方法进行了更深入的分析，以验证主要模型组件的有效性，其中包括定量和定性研究进行验证。

6.1 消融研究

6.1.1 CRF-MSDA的消融研究

在这部分中，我们分析了全局和局部对齐目标函数对CRF-MSDA模型的影响。在表6中，我们在Digits-Five数据集上评估了模型在四种配置下的性能。在基线设置（第一行）中，仅使用分类约束（公式(10)）来优化模型。在基线设置的基础上，全局对齐约束 $L_{global}$ （公式(13)）通过执行类别级别的领域对齐，大大提升了模型的性能（第二行）。对于局部对齐约束 $L_{local}$ （公式(14)），在将其添加到基线配置后，平均准确率上获得了2.12%的性能提升（第三行），这证明 $L_{local}$ 在促进特征表示的可分性方面的有效性。此外，当 $L_{global}$ 和 $L_{local}$ 同时应用时，获得了最高的分类准确率（第四行），这表明了全局和局部对齐约束的互补性。

6.1.2 MRF-MSDA的消融研究

这套实验研究了分类和基于MLE的目标函数对MRF-MSDA模型的影响。表7报告了MRF-MSDA在Digits-Five数据集上在三种配置下的性能。当分类约束 $L_{cls}$ （公式(21)）或基于MLE的约束 $L_{MLE}$ （公式(22)）单独应用时（第一行/第二行），分类准确率明显低于完整模型配置（第三行），即使用两个目标函数。这些结果说明了联合分布建模和基于观察的判别建模的结合对模型的好处。通过结合这两个目标，MRF-MSDA能够为查询样本派生出更精确的标签预测。

6.2 敏感性分析

6.2.1 CRF-MSDA的敏感性分析

敏感性分析带宽参数s。在这个实验中，我们讨论了控制邻接矩阵A（公式(4)）稀疏性的带宽参数s的选择。在图3(a)中，我们绘制了使用不同s值训练的模型的性能。可以观察到，在所有三个任务中，当s的值大约为0.005时，准确度最高。在这种情况下，邻接矩阵能够最适当地捕获观察结果之间的关系。还值得注意的是，当邻接矩阵太密集或太稀疏时，即s > 0.05或s < 0.0005，性能会下降。

敏感性分析权衡参数 $\lambda_1, \lambda_2$ 。在这部分中，我们评估了CRF-MSDA模型对权衡参数 $\lambda_1$ 和 $\lambda_2$ 的敏感性，它们平衡了不同的学习目标。图3(b)和图3©显示了当另一个权衡参数 $\lambda_2$ （ $\lambda_1$ ）固定时，模型在各种 $\lambda_1$ （ $\lambda_2$ ）值下的性能。可以观察到，当这两个参数接近0时，性能明显下降，这再次证实了全局和局部对齐约束都是不可或缺的。

6.2.2 MRF-MSDA的敏感性分析

敏感性分析温度参数t。这个实验研究了温度参数t的选择，它定义了能量函数（公式(17)）的尺度。根据图4(a)，当t大约为0.1时，相应的尺度可以最大程度地使MRF-MSDA模型受益。随着温度参数的增加，模型的性能明显下降，例如，在t = 0.4时，“! mm”任务的性能下降了近15%。这种现象说明MRF-MSDA的联合分布建模依赖于适当尺度的能量来定义联合可能性。

敏感性分析权衡参数a。在这部分中，我们分析了权衡参数a的敏感性，它平衡了分类和最大似然估计目标。从图4(b)的折线图中，可以观察到当a的值大约为1.0时，MRF-MSDA模型的性能比较其他设置更稳定。这样的a值能够在两个学习目标之间获得适当的平衡。

敏感性分析负采样大小Nneg。MRF-MSDA的优化依赖于采样负马尔可夫网络进行对比，这引出了负采样大小Nneg的参数。基于图4©中显示的结果，我们可以得出结论，MRF-MSDA的性能对Nneg的值不敏感，我们认为这归功于我们方法中使用的强负样本（即，与正网络相比只有微小差异的负网络）。

6.3 时间复杂度分析

表8报告了不同方法在Digits-Five数据集上100次迭代的运行时间，无论是在训练阶段还是推理阶段。实验的硬件条件是Intel® Xeon® CPU E5-2620 v4@2.40GHz，有8个处理器和一块NVIDIA TITAN Xp GPU。所有报告的结果都是在相同配置下10次独立运行的平均值。从表中我们可以观察到，在训练阶段，在100次迭代下，MRF模型比CRF模型大约快0.9秒。在推理阶段，MRF-MSDA模型的运行时间也略快于CRF-MSDA模型。这些实验结果验证了MRF-MSDA在学习和推理方面确实比CRF-MSDA具有更高的计算效率。

6.4 可视化

6.4.1 CRF-MSDA的可视化

在CRF-MSDA模型中，邻接矩阵A（公式(4)）量化了不同域之间的类别级别相关性。在图5中，我们在两种模型配置下可视化了A，其中每个像素表示任意域中两个类别之间的邻接性。与仅使用分类约束的配置相比，应用了分类和对齐目标函数的完整模型在各种类别之间的相关性上实现了更好的跨域一致性，这证明了全局级别对齐的有效性。

6.4.2 MRF-MSDA的可视化

这部分中，我们可视化了MRF-MSDA派生的类别特定概率分布。对于查询样本q，我们将概率 $p(y_d = m; y = k|q)$ （1 ≤ m ≤ M + 1, 1 ≤ k ≤ K）组合成一个概率矩阵Pq ∈ R^(M+1)×K。通过对特定类别内的所有查询样本内的Pq取平均，我们可以获得该类别的概率矩阵。在图7中，我们可视化了“! mm”任务的目标域测试集上类别“1”和“5”的概率矩阵。可以观察到，高概率值均匀分布在不同域的相应类别（“1”或“5”）上，这证明了MRF-MSDA在潜在空间内有效地对同一类别的样本进行了对齐，并将来自不同类别的样本进行了分离。

6.4.3 特征嵌入的可视化

在图6中，我们使用t-SNE [89] 可视化了一个源域（SVHN）和目标域（MNIST-M）的特征分布。与仅有源域数据的基线相比，提出的CRF-MSDA和MRF-MSDA模型使得目标域的特征更具辨识性，并且与源域的特征更好地对齐。与CRF-MSDA相比，MRF-MSDA派生的特征表示在两个域之间对齐得更好，这与MRF-MSDA在“! mm”任务上的更好的经验性能一致。

7 结论和未来工作

在这项工作中，我们旨在解决多源领域自适应（MSDA）问题。具体来说，我们提出了两种图形模型，即多源领域自适应的条件下随机场（CRF-MSDA）和马尔可夫随机场（MRF-MSDA），以实现跨域联合建模和可学习的领域组合。在各种MSDA基准数据集上的广泛实验表明，我们的方法在性能上优于现有工作。在未来的工作中，我们将探索MSDA的其他图形模型，例如贝叶斯网络和链图。