TPAMI 2024 | 因果不变交互挖掘用于跨模态相似性学习

最新推荐文章于 2025-03-01 09:30:00 发布

小天才学习机打游戏

最新推荐文章于 2025-03-01 09:30:00 发布

阅读量761

点赞数 26

文章标签：学习 r语言开发语言人工智能 langchain 大数据

本文链接：https://blog.csdn.net/m0_59164520/article/details/142963123

版权

摘要

在现实世界中，如何有效地学习一致的跨模态相似性测量是至关重要的。现有的大多数相似性学习方法由于模态差距问题，在处理跨模态数据时表现较差，并且在应用于跨模态数据时性能明显退化。为了解决这一问题，我们提出了一种新颖的跨模态相似性学习方法，称为因果不变交互挖掘（CIIM），该方法可以有效捕捉不同样本和模态之间的信息关系，在统一的度量空间中导出模态一致的特征嵌入。我们的CIIM从样本层面和特征层面两个方面解决模态差距问题。具体来说，我们首先从样本视角出发，学习单模态和混合模态代理，用于通过精细的度量损失挖掘跨模态相似性。在这种方式下，样本-样本和样本-代理的相关性都被考虑在内。进一步地，我们通过因果干预来消除模态偏差，并在特征层面重构不变的因果嵌入。为此，我们强制学习的嵌入满足我们的因果机制的特定性质，并在统一的度量空间中导出因果不变的特征嵌入。大量实验表明，CIIM在两个跨模态任务上优于当前最先进的方法。

关键词

因果干预
跨模态学习
难样本挖掘
相似性学习

I. 引言

如何有效地学习可区分且具有广泛适应性的度量来衡量样本之间的相似性，是机器学习和计算机视觉领域中的长期且重要的问题。度量学习旨在将原始数据映射到一个嵌入空间，并学习一个距离度量，在这个空间中压缩同类别样本，同时保持不同类别之间的可分性。

近年来，随着深度学习的不断进步，深度度量学习（DML）能够通过深度神经网络（DNNs）参数化来捕捉具有更丰富语义信息的高度非线性特征嵌入，并被广泛应用于各种下游任务，如图像检索、面部识别和行人重识别。

大多数现有的DML方法假设可访问的数据遵循独立同分布（i.i.d.），即获取的样本来自相同的模态。然而，在许多现实世界任务中，我们需要同时处理来自不同模态的数据，如基于草图的图像检索。在多模态训练数据的情况下，由于缺乏模态感知机制，现有的DML方法无法有效建立不同模态之间的相关性，也无法学习到具有区分性的距离度量。因此，传统DML方法学习的特征嵌入伴随着显著的模态差距，即来自不同域的相同类别样本在嵌入空间中被广泛分隔开。

为了缓解模态差距，我们考虑从两个方面改进跨模态DML，即模态感知的难样本挖掘和模态不变的特征嵌入：

模态感知的难样本挖掘：如图1(a)和2(a)所示，仅仅在类内促进紧凑性而忽略选择正样本或负样本时的模态相关信息，会导致跨模态DML中严重的模态差距。因此，设计一个基于模态相关信息的特定难样本挖掘策略是至关重要的，它可以发现模态感知的难样本对，有助于捕捉样本和模态之间的相关性。
模态不变的特征嵌入：考虑到模态特定的差异，一个自然的想法是将跨模态数据投影到统一的嵌入空间中，并在该空间中学习具有模态一致性的表示。这种模态不变的特征嵌入对于准确捕捉来自不同模态的样本之间的关系是必不可少的。

在本文中，我们提出了一种新颖的跨模态DML方法，称为因果不变交互挖掘（CIIM），它能够通过挖掘来自不同模态的样本之间的信息和可靠的相关性，有效抑制模态差异并学习统一且可区分的特征嵌入。

首先，我们详细介绍了模态相关的交互挖掘（MRIM）模块，其中可以建立跨模态的精确连接。具体来说，我们为每个类别学习多个代理（即模态内代理和跨模态代理），以同时建模不同样本和模态之间的关系。同时，我们提出了一种混合挖掘范式，以考虑样本到样本和样本到代理的关系，这可以捕捉到更多有信息的语义相关性。

然后，我们探索了跨模态DML中的内在因果机制，并推导出模态不变的因果嵌入（MICE）模块，利用因果不变性恢复不同模态之间的不变特征。这里引入了一个结构因果模型（SCM）[13]，用于将与类别独立的类相关信息从原始跨模态数据中分离出来，并利用其在统一的度量空间中构建模态不变的特征嵌入。

我们的主要贡献

我们的主要贡献总结如下：

我们讨论了跨模态DML中的模态差距的影响，并从两个方面探讨了如何抑制模态差异，即模态感知的难样本挖掘和模态不变的特征嵌入。
我们提出了一种简单但有效的方法，称为因果不变交互挖掘，以隐式地从跨模态数据中学习区分性和稳定的特征嵌入。
在两个跨模态任务上的大量实验，即零样本草图检索和跨模态行人重识别，证明了我们的方法在性能上优于当前最先进的方法。

本文的其余部分组织如下。我们首先在第二节中简要回顾相关工作。然后在第三节中给出了跨模态相似性学习的正式问题陈述并提出了我们的解决方法。第四节展示了实验结果，最后在第五节进行总结。

III. 方法

A. 问题定义

为了更好地阐明我们提出方法的核心思想，我们假设训练数据和测试数据来自两种不同的模态。遵循DML的标准协议[15]，我们在零样本学习设置下研究跨模态DML，即训练数据集和测试数据集满足。

在本文中，我们考虑处理一个跨模态训练数据集，其中和分别是相应的模态标签和类别标签。注意，是训练数据中的总样本数。使用训练数据集，跨模态DML旨在学习一个从原始空间到维度度量空间的区分性嵌入，记为。根据学习到的变换，我们可以计算嵌入之间的距离度量：

和嵌入之间的相似性度量：

其中表示范数，表示内积操作。

B. 因果不变交互挖掘

为了有效解决模态差距问题，我们提出了一种新的因果不变交互挖掘（CIIM）方法，通过样本层面的模态相关交互挖掘和特征层面的模态不变因果嵌入，挖掘模态感知的相关性和模态一致的表示。

所提出的CIIM模型的总体流程图如图3所示。在模态相关的交互挖掘（MRIM）模块中，我们为每个类别同时学习两个单模态代理和一个混合模态代理。然后，代理和实例一起用于捕获和建模模态感知的关系，从而通过优化精心设计的度量损失函数引导跨模态DML模型学习区分性和可推广的特征嵌入。在模态不变的因果嵌入（MICE）模块中，我们通过基于傅里叶的增强方法对非因果因素进行因果干预。给定原始和增强的样本，我们通过施加特征层面的度量损失，强制它们的因果嵌入遵守因果原则。通过这种方式，我们可以学习因果嵌入，从模态特定的非因果信息中分离出来。

符号：锚点表示属于模态和类别的第个原始样本，其对应的嵌入特征在学习到的度量空间中描述为。

在传统的基于代理的MDL中，对于每个类别，我们可以通过将该类别的所有样本拉近，同时将其他类别的所有样本推远来学习一个代理。在我们的方法中，我们引入了两种新类型的代理，即单模态代理和混合代理。单模态代理表示模态中第类别的代理，它是使用模态中所有类样本计算得到的。混合代理表示第类别的代理，它是使用该类别的所有实例（无论模态标签）计算得到的。

1) 模态相关的交互挖掘

DML的主流方法侧重于从排序的代理-样本对或样本-样本对中提取类别关系信息。在单模态DML中，我们可以根据类别标签轻松地为每个锚点分配正样本和负样本（或代理），然后在度量损失的指导下将正样本对拉近，同时将负样本对推远。然而，由于忽略了模态相关性，这种经验范式在跨模态场景下无法很好地工作。为了解决这个问题，我们提出了一种新的难样本挖掘策略，称为模态相关交互挖掘，以同时考虑类别和模态关系，从而获取更丰富的语义信息用于学习模态一致的嵌入。

难关系挖掘：如第II-A节所示，基于对的DML方法充分利用每个小批次中的样本-样本对来优化度量损失。然而，使用这些复杂的样本-样本关系对于跨模态DML是无效的，因为过于简单或过于困难的样本对都会阻碍模型的性能[47]。由于模态差异，尽管同一类别的正样本对由不同模态组成，可能很难将它们对齐。相反，不同类别和模态的样本由于样本之间的自然大间距，可以轻松分离。另一方面，基于代理的方法仅采用代理-样本关系，而忽略了有信息的样本-样本关系。因此，我们引入了一种新挖掘策略，在统一框架下挖掘样本-样本和代理-样本的相关性。

通常，不同的度量损失函数分别度量样本-样本和代理-样本的相关性。受到[24]的启发，我们推导了一个统一的度量损失来同时处理两种丰富的语义关系。形式上，给定一个锚点样本，具有个正参考和个负参考，我们定义统一度量损失为：

其中，，表示尺度因子。注意，参考可以是样本或代理。特别是，(3) 能够退化为带有难样本挖掘的三元组损失：

因此，该度量损失能够进行难关系挖掘，帮助模型学习更好的决策边界。

模态内难关系挖掘：为了强化类内紧凑性，我们将每个样本及其混合模态代理拉近。混合模态代理是用该类别的所有样本计算得到的，不论模态。由于不同模态形成的负样本对对优化贡献较小，因此我们只考虑模态内的负样本对。

如图4(a)所示，每个锚点样本被鼓励靠近其对应的混合模态代理，同时远离相同模态中的负样本。结合正的代理-样本对和负的样本-样本对，我们得到模态内度量损失：

其中是锚点样本和其对应的混合模态代理的正相似度分数（）。简而言之，将样本拉近它们的混合代理，同时远离相同模态中的负样本，可以有效地在模态之间实现类内紧凑性，这对消除模态差距是有用的。

跨模态难关系挖掘：为了进一步抑制模态差距，我们关联来自不同模态的样本并挖掘它们的语义相关性。显而易见，拉近跨模态的正样本-样本对是非常困难的。相反，跨模态的负样本-样本对由于样本之间天然的大间距而容易分离。然而，过于困难或过于简单的关系都会降低DML的性能。因此，我们用代理-样本的相关性替代样本-样本的相关性来进行跨模态的关系挖掘。

如图4(b)所示，我们强制锚点样本靠近另一模态的正单模态代理，同时远离另一模态的负单模态代理。基于上述分析，我们为每个类别学习两种不同的单模态代理，即每种模态的数据用于学习一个特定的代理集。通过两组单模态代理，我们推导出跨模态度量损失：

其中是锚点样本和同类别（）但不同模态（）的单模态代理之间的正相似度分数，是锚点样本和不同类别（）和不同模态（）的单模态代理之间的负相似度分数。通过应用跨模态度量损失，我们可以连接来自不同模态的样本并探索它们隐含的语义相关性，从而进一步挖掘样本之间的语义关联。

多代理生成：我们通过广泛使用的交叉熵损失学习上述代理。给定训练数据集中的所有样本及其在度量空间中的特征嵌入，我们学习混合代理如下：

给定第模态中的训练样本及其特征嵌入，我们优化单代理如下：

其中表示第模态的样本数。

2) 模态不变的因果嵌入

在DML中，语义信息从原始数据中提取，并嵌入到度量空间中的学习特征中。挖掘丰富的语义关系有助于我们获取更多信息，这对区分性特征嵌入有利。然而，跨模态DML中可访问的语义信息本质上与模态特征相关的有害因素混淆在一起。特别是，模态相关信息，如“情境风格”在基于草图的图像检索中，导致模态差距，从而降低模型性能。因此，我们从因果视角形式化跨模态DML问题，探索底层因果模型并学习模态不变的因果嵌入，可以有效过滤掉混淆因素，如基于草图的图像检索中的“情境风格”，并保留有用的类别相关语义信息。

跨模态DML的因果视角：遵循之前的工作[44], [45], [48]，我们在图5(a)中展示了一个结构因果模型（SCM），以因果视角形式化跨模态DML问题，旨在发现数据和特征嵌入之间的自然因果机制。直观上，与类别无关的模态相关信息（如“风格”）和类别相关信息（如“形状”）是相互独立的。前者因果地有助于特征嵌入的区分能力，而后者混淆了不同模态样本之间的相关性。因此，我们假设类别相关信息和模态相关信息分别为因果因素和非因果因素。

现有方法直接学习，这会将模态偏差引入学习的度量中，从而导致模态差距。为了解决这个问题，我们考虑将因果因素从非因果因素中分离出来，并借助因果干预学习样本之间关系的真正因果性。do-算子 [49] 强制对相应变量进行干预。

因果因素和因果嵌入：在实际操作中，我们无法直接因子化嵌入并滤除非因果因素的影响，因为因果因素和非因果因素都无法被观察到且难以被形式化[13]。因此，我们直接学习因果嵌入而不是重新构造因果因素。为了确保学习到的因果嵌入的有效性，我们强制它们满足与因果因素相同的基本要求。

根据先前对因果机制的研究[44], [48], [50]，我们总结了跨模态DML中因果因素应满足的两个主要和基本性质：

因果因素和非因果因素应该彼此独立。
因果因素之间应该相互独立。

满足上述因果特性，学习到的因果嵌入不会受到模态特定信息的影响，并且在不同模态之间具有不变性。如图5(b)所示，符合所有要求的因果嵌入能够抑制模态差距。

基于对比的因果干预：为了有效地强制学习的因果嵌入具有上述属性，我们对提取的特征嵌入进行了基于对比的因果干预。

考虑到傅里叶变换的相位分量保留高级语义信息的特性，我们引入了一种基于傅里叶的数据增强策略[51]，对进行干预。具体来说，给定一个原始输入及其傅里叶变换：

我们通过线性插值扰动幅度信息，并混合原始样本和从任意模态随机采样的另一个样本的幅度谱：

其中和分别表示幅度和相位分量，，其中超参数控制增强的强度。然后我们通过组合混合的幅度谱和原始相位谱形成增强的傅里叶表示：

利用FFT算法[52]，我们可以通过逆傅里叶变换生成增强样本：

得到原始数据及其增强数据，我们的跨模态DML模型将学习到相应的特征嵌入和，其中为模型参数。

直观上，我们使用嵌入的元素来模拟因果因素，即和的行向量分别表示为和。为了公平测量，我们按照[44]对这些向量进行Z-score标准化：

对于属性1，我们假设因果因素在对进行干预后保持不变。具体来说，每个元素和其增强应保持一致性，即，

为了保证因果因素的联合独立性，我们强制任何两个不同的元素彼此独立：

为了有效优化(14)和(15)，我们基于(3)推导出一个特征层面的度量损失，同时满足上述要求：

其中。通过这种对比方式，跨模态一致性和联合独立性都得到了满足。具体来说，对于每个元素，其对应的增强被拉近，而其他增强被推远。满足因果要求，学习到的因果嵌入是模态不变的，可以有效抑制模态差距。

3) 整体

在描述了我们的框架和损失函数之后，我们方法的最终目标可以表示为：

其中是平衡整体性能的参数。

在最终目标的指导下，我们可以在训练期间优化跨模态度量模型。训练结束后，我们可以通过学习的特征嵌入计算跨模态样本对之间的相似性。具体来说，跨模态样本对之间的相似性计算如下：

其中分别是的学习特征嵌入。

4) 讨论

大多数现有的跨模态学习方法是为深度分类学习设计的。在训练期间，它们将同类别的所有特征拉向一个对应的代理，即分类层中的权重向量。因此，抑制模态差距的策略不能直接应用于深度度量学习。为此，我们为跨模态深度度量学习设计了一种新的因果不变交互挖掘策略。此外，我们的方法还考虑了这些跨模态学习方法忽略的未见类别的泛化能力。因此，我们的方法在零样本环境中表现良好。

IV. 实验

在本节中，我们从不同方面全面评估了我们提出的方法CIIM的有效性：

为了验证我们提出方法的有效性，我们在两个经典的跨模态任务上进行了评估，即零样本草图检索（见第IV-A节）和跨模态行人重识别（见第IV-B节）。我们证明了CIIM在这两种任务中表现出色。
在第IV-C节中，我们通过实验确认了CIIM的特点。

在本文中，所有实验均在一个RTX-A6000 GPU上使用PyTorch [53]包实现。我们将权衡参数设置为，并在所有实验中将尺度因子，这可以进一步验证我们方法的泛化能力。为了更好地说明我们方法的有效性，我们选择三元组损失作为基线。按照标准协议，我们添加了交叉熵损失以增强基线的性能。为此，基线方法由交叉熵损失和三元组损失组成。

A. 零样本草图检索

零样本草图检索（ZS-SBIR）旨在使用手绘草图作为查询，在现实场景下的零样本学习环境中检索图库中的目标图像。我们在该跨模态任务上评估了CIIM的表现。

数据集：采用了三个广泛使用的大规模基准数据集，即TU-Berlin Extended [65]、Sketchy Extended [54] 和 QuickDraw Extended [58]，以验证我们方法的优越性：

TU-Berlin Extended [65] 是一个具有挑战性的基准数据集，包含20,000幅手绘草图和204,489幅自然图像，分布在250个类别中用于跨模态检索。按照协议[36]、[66]，我们随机选择220个类别用于训练，其余30个类别用于测试。每个测试集群被强制包含至少400幅自然图像以保证检索。
Sketchy Extended [54] 最初由75,471幅草图和12,500幅图像组成，来自125个不同的类别。在[55]中，通过添加来自ImageNet的60,502幅自然图像，该数据集进一步扩展为73,002幅照片模态图像。按照零样本评估协议[59]、[66]，随机选择100个类别用于训练，其余25个类别用于测试。这种划分被称为Split_1。为维护零样本假设，Split_2是更具挑战性的划分，它排除在ImageNet中出现的类别。
QuickDraw Extended [58] 由330,000幅草图和204,000幅图像组成，涵盖110个类别。按照类似协议[58]，30个类别用于测试，其余80个类别用于训练。

总体统计数据汇总见表II。

评估指标：我们使用平均准确率（mAP）和前K精度（P@K）来评估性能。Prec@K表示前K个检索的自然图像中正确检索的比例，而mAP@K计算K个图像的平均检索结果。

实现细节：按照标准协议[58]、[59]，我们采用CSE-ResNet50 [68]和在ImageNet上预训练的ViT-B作为主干网络。我们使用Adam [69]优化器，并将权重衰减设置为5e−4。学习率从1e−4开始，并在训练过程中逐渐衰减至零。批量大小设置为128。所有结果均取自五次运行的平均值，报告mAP@all和Prec@100。

定量比较：我们将CIIM与最先进的方法进行了全面比较，如经典的SBIR方法GN-triplet [54]、DSH [55]、零样本学习方法ZSH [57]、SAE [56]，以及最新的ZS-SBIR方法Doodle [58]、SAKE [59]、NAVE [60]、DSN [38]、TCN [36]、RPKD [61]、TVT [62]、PKSD [39]、Sketch3T [63]和ZSE [64]。如表III和表IV所示，CIIM在所有评估的数据集上都优于这些方法，显示出卓越的跨模态特征学习能力。

定性比较：TU-Berlin Extended上的前10个零样本草图到图像的检索结果如图7所示。错误检索的图像以红色边框突出显示，而正确的结果为绿色。尽管存在一些视觉相似的错误，CIIM仍能有效地在共享嵌入空间中对齐草图和照片，如图8中的t-SNE进一步可视化所示。

B. 跨模态行人重识别

跨模态行人重识别旨在从数据库中检索目标人物的图像，其中查询和图库图像来自不同模态。我们在SYSU-MM01 [78]和RegDB [79]上验证了CIIM的表现。

数据集：

SYSU-MM01 [78] 包含287,628幅来自四个RGB摄像头的可见光图像和15,792幅来自两个红外摄像头的红外图像。该数据集包含491个身份，其中395个用于训练，剩余的用于测试。
RegDB [79] 包含412个身份，每个身份有10张RGB和10张红外图像，均匀分为训练集和测试集。

这些数据集的统计数据如表V所示。

评估指标：我们使用累计匹配特征（CMC）和平均准确率（mAP），以10次试验的平均值作为最终结果。

实现细节：我们在实验中使用在ImageNet上预训练的ResNet50 [5]作为主干模型。模型通过Adam优化器进行训练，权重衰减设置为5e−4，批量大小设置为64，其中包括8个身份，每个身份有4张RGB图像和4张红外图像。

实验结果：与MAC [70]、Hi-CMD [71]、MSR [72]、AlignGAN [73]、Xmodel [74]、LZW [75]、MACE [76]和CMAlign [77]等最先进的跨模态行人重识别方法相比，CIIM表现出明显的优势，结果见表VI。

C. 消融研究

我们评估了CIIM中不同组件的有效性，即模态相关的交互挖掘（MRIM）和模态不变的因果嵌入（MICE），通过分析各个组件对性能的贡献，总结于表VIII。每个组件均能显著提高模型的性能。

差异性分析：如表VII所示，CIIM在减少模态差距和增加类别间差异方面表现出色，从而提升了跨模态特征嵌入的性能。

可视化比较：图9中的t-SNE可视化结果表明，与基线模型相比，CIIM显著降低了模态差距。

尺度因子 的影响：在TU-Berlin Extended上的实验表明，CIIM在时表现最佳（图10）。

时间消耗分析：与其他复杂模型如DSN [38]相比，CIIM在计算效率上更具优势。

V. 结论

在本研究中，我们提出了CIIM，通过集成模态感知的难样本挖掘和模态不变的因果嵌入来解决跨模态相似性学习中的模态差距问题。CIIM在零样本草图检索和跨模态行人重识别任务中显著提升了性能。未来，我们计划将CIIM扩展到更多具有挑战性的跨模态任务，并通过先进的特征分解技术探索进一步的改进。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述