低质量多模态数据融合方法最新进展!天津大学携手顶尖高校推出重磅综述!

震撼发布!低质量多模态数据融合方法最新进展!天津大学携手顶尖高校推出重磅综述!

Multimodal Fusion on Low-quality Data: A Comprehensive Survey

简介

多模态融合侧重于整合多种模态的信息,以实现更准确的预测,在自动驾驶、医疗诊断等多种场景中取得了显著的进展。然而,多模态融合的可靠性在很大程度上仍未得到探索,特别是在低质量数据设置下。本文调查了多模态融合的常见挑战和最新进展,并以数据为中心的角度,确定了低质量数据的多模态融合面临的四个主要挑战,即 (1)被异质噪声污染的噪声多模态数据,(2)缺少某些模态的不完整多模态数据, (3)不平衡多模态数据,不同模态的质量或属性显著不同;(4)质量变化多模态数据,每种模态的质量相对于不同样本动态变化。这种新的分类法将使研究人员能够了解该领域的现状并确定几个潜在的方向。本文还对该领域的开放问题以及有趣的未来研究方向进行讨论。

四个核心技术挑战

图片

​ 图 1:低质量多模态数据机器学习挑战的图示。蓝色和金色代表不同的形态。颜色越深表示质量越高。

当前的多模态融合在低质量数据场景下表现不佳,如在存在噪声、不完整或模态不平衡的数据下。由于现实中的多模态数据质量常常不一致,传统的方法可能会失败。本文确定并探索了围绕低质量多模态数据的多模态融合的四个核心技术挑战(如图1所示):

  • 嘈杂的多模态数据。 第一个基本挑战是学习如何减轻多模态数据中任意噪声的潜在影响。高维多模态数据往往包含复杂的噪声。多模态数据的异质性使其具有挑战性,同时也提供了通过探索不同模态之间的相关性来识别和减少潜在噪声的机会。
  • 多模态数据不完整。 第二个基本挑战是使用不完整的多模态数据进行学习。例如,在医疗领域,即使患有相同的疾病,患者也可能选择不同的医疗检查,从而产生不完整的多模态数据。开发灵活可靠的多模态学习方法来处理不完整的多模态数据是一个具有挑战性但有前途的研究方向。
  • **多模态数据不平衡。**第三个基本挑战是如何减轻模态之间的偏见和差异的影响。例如,视觉模态总体上比音频模态更有效,导致模型走捷径,缺乏对音频的探索。尽管现有的融合方法表现出有希望的性能,但在某些模态首选应用的推理方面,它们可能无法比单模态主导模型表现得更好。
  • 质量动态变化的多模态数据。 第四个基本挑战是如何适应多模态数据质量动态变化的性质。在实践中,由于不可预见的环境因素或传感器问题,不同样品的一种模态的质量通常会有所不同。例如,在低光或背光条件下,RGB 图像的信息量低于热模态图像。因此,在实际应用中,通过了解不同的质量来动态集成多模态数据是必要的。

噪声多模态数据学习

主要思路: 采用多模态间的相关性来识别并减少噪声的影响,例如通过平均融合或加权融合的方法。

多模态噪声根据其来源大致可分为两类:1) 由传感器误差、环境因素或每种模态单独传输产生的特定模态噪声,2) 由弱对齐或未对齐多模态产生的跨模态噪声可以被视为语义级噪声。

模态特定的降噪

模态特定的降噪方法很大程度上取决于输入模态和手头的任务。大多数特定于模态的降噪方法侧重于从多模态数据中聚合有用信息并减轻多模态融合中噪声的影响。一种简单的多模态降噪方法是对多模态数据进行平均融合。由于噪声的随机性,平均运算有效降低了融合图像中噪声的比例。[19]开发了一种智能多模态融合算法。该方法将输入图像分解为高频和低频分量,并提出低频分量的平均融合规则,同时对高频分量利用引导滤波。

跨模态降噪

文中将将弱对齐或未对齐的多模态样本视为跨模态噪声。与特定于模态的噪声相比,跨模态噪声位于更高级别的语义空间。目前的跨模态降噪方法大致可分为基于规则的滤波、基于模型的校正和噪声鲁棒性正则化。

总而言之,从嘈杂的多模态数据中学习是一个常见但具有挑战性的问题。当前的方法从两个角度解决这个问题:模态特定降噪(针对特征噪声)和跨模态降噪(针对语义噪声)。然而,这些方法通常专注于特定场景,例如多模态图像融合或自动驾驶,而对一般噪声模式和学习范式的探索相对较少。文中已经确定了该领域的几个潜在研究课题。首先,利用不同模式的噪声之间的相关性非常重要。例如,高光谱图像中具有相似波长的图像通常表现出相似的噪声模式。其次,利用噪声和清洁模态之间的互补性来降低噪声将是有效的。第三,解决高级语义噪声提出了一个有趣的方向,而且更具挑战性。

缺失模态插补

主要思路: 通过内核或图的填充,以及GAN等生成模型来补全缺失的数据。

图片图 2:基于插补的不完全多模态学习。

实际应用中,由于设备损坏、数据传输和存储丢失等意外因素,采集的多模态数据往往不完整,部分样本存在部分模态缺失。举一个具体的例子,在面向用户的推荐系统中,浏览行为历史和信用评分信息可能并不总是对某些用户可用。通常,传统的多模态学习模型假设多模态数据的完整性,因此不能直接应用于部分缺失的模态。本文主要关注不完全多模态学习的研究进展。从是否对缺失数据进行插补的角度来看,将现有方法分为两类,包括基于插补的不完全多模态学习无插补的不完全多模态学习,其中基于插补的方法进一步分为两组,如图2所示,包括实例和模态级别插补。

专注于输入不完整模态的方法可以分为两类:一类通过图或核补全间接恢复缺失的模态,另一类直接填充原始数据。对于无插补的不完整多模态学习方法,其设计理念更侧重于利用可用的模态来探索信息和理解多模态数据。然而,这两种处理不完整多模态数据的方法都面临着更深层次的挑战。例如,对缺失模式的估算实例的质量评估通常被忽视。此外,利用先验缺失信息来掩盖未知模态本身就很难弥合模态缺失引起的信息鸿沟和信息不平衡问题

表 3:一些代表性的不完整多模态学习方法总结。图片

平衡多模态融合

主要思路: 通过优化学习目标或架构设计来平衡不同模态的数据质量。

平衡多模态学习方法关注的是不同模态之间学习属性或数据质量的差异,这是由多模态数据的异质性引起的。这些方法从不同的角度提出解决方案,包括学习目标、优化、架构和数据增强。平衡的多模态学习仍然是一个朝阳领域,还有很多尚未探索的方向。例如,在理论指导下探索模式之间的合作是有希望的。此外,目前的方法主要局限于典型的多模态任务,大部分是判别任务和少量生成任务。事实上,除此之外,还需要联合集成不同模态的多模态大语言模型也可能会遇到这种不平衡问题。预计将扩展当前的研究或在多模态大语言模型设置中设计新的解决方案。

表 4:代表性平衡多模态学习方法总结。图片

动态多模态融合

主要思路: 引入注意力机制和不确定性感知机制,使融合过程能够根据不同模态的动态变化进行调整。

图片图 5:动态融合的图示。

当前的多模态融合方法通常依赖于多模态数据具有静态质量的假设,这在现实场景中并不总是成立。处理质量动态变化的多模态数据是多模态智能系统不可避免的问题。由于意外的环境因素和传感器问题,某些模式可能会出现可靠性差和缺乏特定任务信息的问题。此外,如图5所示,不同模态的质量随着场景的不同而动态变化。这种现象催生了一种新的多模态学习范式,即动态多模态融合,旨在适应多模态数据的动态变化质量并选择性地集成任务- 具体信息。本文重点关注动态多模态融合的挑战,并将该文献中的当前进展分为三个主线,包括启发式、基于注意力和不确定性感知的动态融合

启发式动态融合

为了实现鲁棒的多模态融合,以前的工作启发式地设计了动态融合策略。这些动态融合方法源自人类关于当前任务和应用场景的经验和知识(例如,在夜间,热模态比 RGB 更可靠)。作为一个具体的例子,照明条件可以作为引入动态融合的标准。在全天候应用中,之前的工作表明,在多光谱行人检测任务中,RGB 和热模态的质量会随时间变化。虽然在正常照明条件下,与热模态相比,RGB 模态往往包含更多有用的信息,但在弱光或夜间条件下,这种关系可能会逆转,在这些条件下,热模态变得比 RGB 更可靠。基于这一观察,作者提出利用照明感知融合模块来自适应地融合两种模式的特征。

基于注意力的动态融合

动态融合的关键挑战是设计动态机制来学习合理的融合标准。为了实现这一点,另一类方法通常引入注意机制来动态融合多模态信息。文中根据所涉及的注意力机制的不同类型组织了各种动态融合方法,包括自注意力、通道注意力、空间注意力和transformer。自注意力通过允许每个元素与其他元素交互来模拟输入序列中的依赖关系。在多模态情感识别(涉及文本和音频模态)中,音频模态往往比文本传达更多特定于任务的信息,例如语调。然而,由于背景噪声的潜在影响,这两种模式的质量可能因不同样本而存在显着差异。孙等人提出了一种新的多模态交叉和自注意力网络(MCSAN),以动态强调语音情感识别中语言内容和声学信息的信息。

不确定性感知动态融合

与基于直观假设的启发式动态多模态学习方法(在实践中可能并不总是成立)相比,基于不确定性的多模态融合最近成为实现可靠融合的更通用和原则性的方法,通常建立在坚实的基础,例如概率分布或信息论。

动态多模态学习方法关注模态质量随样本、时间或空间的变化,这种变化广泛存在但往往被忽视。 动态融合方法包括启发式(主要为特定应用而设计)、基于注意力(通常用于表示融合)和不确定性感知(对融合的模态和样本水平不确定性进行建模)策略。动态多模态学习具有巨大的潜力。首先,可以在 SOTA 多模态模型(例如 CLIP)中考虑动态原理。其次,实际应用中存在大量动态场景(例如自动驾驶、医学图像融合),因此设计特定于应用的动态融合策略很有趣。例如,在多模态医学图像中,可以在路径级别动态融合它们,这可以提供更好的灵活性和可解释性。

ECCV 2024|多模态学习不鲁棒?表示解耦打造稳健多模态学习新纪元

Robust Multimodal Learning via Representation Decoupling

简介

对缺失模态具有鲁棒性的多模态学习由于其实用性而引起了越来越多的关注。现有的方法倾向于通过学习不同模态组合的公共子空间表示来解决这个问题。然而,我们发现它们由于对类内表示的隐式约束而不是最优的。具体来说,同一类内具有不同模态的样本将被迫学习同一方向的表示。这阻碍了模型捕获特定于模态的信息,导致学习不足。为此,文中提出了一种新颖的解耦多模态表示网络(DMRNet)来协助鲁棒的多模态学习。DMRNet 将来自不同模态组合的输入建模为概率分布,而不是潜在空间中的固定点,并从分布中对预测模块的嵌入进行采样以计算任务损失。此外,引入了硬组合正则器,通过引导 DMRNet 更多地关注硬模态组合来防止 DMRNet 训练不平衡。最后,对多模态分类和分割任务的广泛实验表明,所提出的 DMRNet 显着优于最先进的技术。

研究动机

尽管现有的常见的基于子空间的方法确实能够提高多模态模型的训练和部署效率,但它们将具有不同模态组合的输入投影到确定性嵌入中并直接从中进行预测。这引入了隐式类内表示方向约束,导致性能次优

图片图 1:CASIA-SURF 数据集上通道间距离矩阵 Dchannel的直方图图示。

具体来说,为了最小化训练损失,模型将约束同一类内具有不同模态组合的样本,以生成与类中心向量相同方向的嵌入。这阻碍了模型利用不同模态组合的特定信息,导致表示学习不足。如图1(a)和(c)所示,与不受模间干扰的单模态模型相比,基于普通子空间的模型的模内和模间特征多样性显着下降。因此,每种模态组合的性能都会较差。

论文贡献

  • 揭示了传统不完全多模态学习方法中类内表示的方向约束。它限制了模型对不同模态组合的特定信息的表示能力。
  • 通过解耦训练和推理表示,提出了一个用于不完整多模态学习的通用框架 DMRNet。这使得模型能够学习每个模态组合的非并行推理嵌入,从而提高表示能力。
  • 对多模态分类和分割任务的大量实验证明了所提出的 DMRNet 的有效性。

DMRNet

如图2所示,DMRNet由两个部分组成:解耦多模态表示和硬组合正则器。1)解耦的多模态表示,将推理表示和训练表示解耦,减轻推理表示的方向约束; 2)硬组合正则化器,挖掘和正则化硬模态组合以处理不平衡训练问题。

图片图 2:所提出的 DMRNet 的总体框架。

表示约束分析

文中介绍了不完全多模态学习的表征约束问题的分析,发现来自同一类的不同输入组合将被迫学习相同方向的嵌入。这限制了模型对不同模态组合的特定信息的表示能力,导致表示学习不足

具体来说,传统公共子空间模型中 的多模态嵌入 可以表示为:

其中 是第 v 个模态的嵌入。 θ 是融合模块的参数。 θ 是 模态编码器的参数。 是 第 v 模态的伯努利指标。它被随机设置为 0 或 1 以模拟随机模态缺失。这使得模型对于不完整的推理数据具有鲁棒性。

解耦多模态表示

如所讨论的,传统的基于子空间的通用方法的表示能力受到不同输入组合的类内表示约束的限制。为了解决这个问题,文中引入了解耦多模态表示技术,通过解耦训练和推理表示来减轻推理表示的方向约束。具体来说,它由两部分组成:表示概率化和分布正则化。

表示概率。 考虑构建概率嵌入,即 ,以获得更灵活的表示空间。为了简单起见,定义概率嵌入 服从多元高斯分布,

其中高斯分布的两个参数( 和 )都是与输入相关的预测。与现有方法在池化后估计特征向量的μi和σi不同,本文直接估计特征图的 和 。这不仅有助于提高性能,而且使模型能够处理密集的预测任务,例如分割。具体而言, 和 定义如下:

每个样本的表示变成从 采样的随机嵌入。然而,采样操作是不可微分的。因此,考虑重新参数化技巧来启用反向传播,

是用于预测模块训练的嵌入, 是用于推理的最终嵌入。通过这种方式,DMRNet 将训练和推理嵌入解耦。模型的交叉熵损失可以重写如下,

图片

分布正则化 正如所讨论的,较大的 将导致较弱的约束。因此,模型倾向于预测更大的,以提高模型捕获不同模态组合的特定信息的能力,提高表示能力。然而,较大的 也会引入较高的不确定性,这会阻碍 W 的优化。因此,需要为 引入一个正则化项来限制其范围。受以前的概率嵌入方法的启发,在优化过程中引入了正则化项,以显式约束 和正态高斯分布 N (0, I) 之间的距离,

图片

硬组合正则化器

为了解决样本不平衡的训练问题,文中引入了硬组合正则化器。它根据估计的 挖掘硬模态组合,然后为它们引入独立的梯度路径来规范其优化。与使用额外模块的传统正则化方法相比,该正则化器与DMRNet的预测模块共享参数,因此没有引入额外的参数。

硬组合挖掘 由于模型倾向于首先拟合判别模态组合的输入,因此硬组合将比经过 LDR 优化的判别组合具有更大的方差。可以通过简单的方差排序来挖掘硬组合。

给定 V 模态,将 中的分量随机设置为 0 或 1 来获得 2V 模态组合。训练数据集中所有组合的方差集 计算如下:图片

硬组合正则化 如图2所示,为了鼓励模型更多地关注硬模态组合输入,文中引入了一个辅助预测器来指导它独立地决定硬模态组合输入。具体来说,给定来自模态组合 Δi 的采样嵌入 ,它计算 的硬组合正则器损失 ,如下所示,

图片

总损失

DMRNet 的总训练损失 L 定义如下,

图片

其中 是输入数据的传统目标任务损失。 α 和 β 是超参数。具体来说,α 控制松弛水平,β 控制硬模态组合的正则化程度。

实验结果

表 1:使用 CASIA-SURF 进行多模态分类任务的性能。指标为 ACER(↓),值越低,性能越好。黑点和 白点分别表示可用和缺失的模态。图片

表 2:使用 CREMA-D 和 Kinetics-Sounds 数据集进行多模态情感识别任务的性能。指标是准确度(↑),值越高,性能越好。图片

表 3:CASIA-SURF 数据集的消融结果。 “SF-MD”是基准模型。 “DMR”是指解耦的多模态表示。 “HCR”是指硬组合正则化器。图片

CVPR 2024|拥抱单模态不确定性,实现稳健多模态融合!电子科大与同济等联手突破多模态技术瓶颈!

Embracing Unimodal Aleatoric Uncertainty for Robust Multimodal Fusion

简介

作为多模态学习的一个基本问题,多模态融合旨在弥补单一模态的固有局限性。多模态融合的一项挑战是,其独特嵌入空间中的单模态数据大多包含潜在的噪声,这会导致跨模态交互的损坏。然而,本文表明单模态数据中的潜在噪声可以很好地量化,并通过对比学习进一步用于增强更稳定的单模态嵌入。具体来说,文中提出了一种新的通用且鲁棒的多模态融合策略,称为拥抱任意不确定性(Embracing Aleatoric Uncertainty, EAU),该策略简单且可以应用于各种模态。它由两个关键步骤组成:(1)稳定单模态特征增强(SUFA),通过将任意不确定性纳入自监督对比学习中来学习稳定的单模态表示。(2)鲁棒多模态特征集成(RMFI)利用信息论策略来学习鲁棒紧凑联合表示。实验表明,EAU在多个多模态数据集上实现了最先进的表现,并展示了强大的抗噪性能。

研究动机

图片图 1. 多模态数据集中的任意不确定性和分布表示的说明:(a) 由于语义不明确,多模态数据容易引入噪声数据。(b)我们采用多元高斯分布来表示噪声潜在空间中的模糊语义。

随着多模态数据不确定性的挑战不断出现,作者提出了第一个基本问题:我们能否量化多模态数据的不确定性? 受概率分布表示的启发,我们自然地采用高斯分布来解决这个问题。假设每个实例都可以表示为多元正态分布,其中方差可以视为内在的任意不确定性。有了量化的不确定性,我们就可以更仔细地审视多模态融合,并提出第二个问题:完全放弃内在的不确定性是否合适? 从图1(a)的例子中,可以观察到,即使图像-文本对揭示了相似的语义,由于域转移、额外描述或图像质量等原因,任意不确定性仍然是不可避免的。为此,如图1(b)所示,我们认为考虑任意不确定性的多元正态分布可以被视为语义的模糊表示,其中语义相关的数据处于相似的分布内,即使它们处于不同的模态。

在这两个假设的推动下,作者提出了一种新的多模态融合策略,即拥抱任意不确定性(EAU)。

论文贡献

  • 提出了一种新的多模态融合方法,称为拥抱任意不确定性(EAU),量化了内在的任意不确定性,并利用它来学习稳定和鲁棒的联合表示。
  • 设计了稳定单模态特征增强模块(SUFA),通过自监督对比学习,学习稳定的单模态嵌入。
  • 设计了鲁棒多模态特征集成模块(RMFI),通过信息论策略学习紧凑的联合特征表示,减少冗余信息。

多模态融合方法

EAU由两个关键步骤组成:

  1. 稳定单模态特征增强(SUFA):通过高斯分布量化各模态的内在不确定性,学习出一致且稳定的单模态特征嵌入。SUFA利用自监督对比学习,确保每个模态的表示保持语义一致性。
  2. 鲁棒多模态特征集成(RMFI):在集成阶段,RMFI通过注意力机制根据模态的量化不确定性动态调整融合权重。此外,RMFI采用变分信息瓶颈(VIB)策略,确保生成的联合特征表示紧凑且冗余最小。

SUFA

由于不同模态的数据在其各自的模态空间中包含独特的噪声,首先提出稳定单模态特征增强(SUFA)模块来量化其内在的任意不确定性。根据不确定性归因于语义的模糊表示的论点,通过自监督对比学习进一步利用任意不确定性。

单模态分布表示。 给定多模态样本 其中 M 是包括图像、音频、文本等的模态集,学习分布表示来量化每种模态中的任意不确定性。根据方程中列出的偏差。从图1可以看出,如果不考虑认知不确定性,深度学习模型可以直接将任意不确定性预测为方差。为此,我们首先使用相应的特征提取器来学习每种模态的初步嵌入,然后部署两个额外的全连接层来学习均值向量和方差向量。进一步,将每个样本 在潜在空间中的表示 定义为具有 d 变量的多元高斯分布,可以表示为:

不确定性量化公式

图片图 2. 单模态分布表示过程的图示。为了清楚起见,将仅包含两个变量的多元高斯分布可视化。

图 2 中用双模态输入说明了单模态分布表示过程。可以观察到 会将具有相似语义的两个多模态分布表示推得更近。这样,每个多模态样本的表示不限于确定性点嵌入,而是在几个多元高斯分布上一致的模糊表示。特别是,方差揭示了 m 模态的任意不确定性,而平均值 是相应的稳定表示。

基于不确定性的表示增强。 有了量化的任意不确定性,考虑在前文中提出的第二个问题:我们是否应该放弃多模态数据中的任意不确定性?直观上,由于语义的自然模糊性,多模态数据中的任意不确定性是不可避免的。然而,这也导致了不同模态的单模态数据的多样性。为此,文中利用任意不确定性来生成未见过的样本,使得学习到的单峰表示对具有相似语义的不同单模态输入不敏感。

图片图 3.基于不确定性的表示增强过程的图示。仅为了清楚起见而显示图像模态的分布表示。

以图像模态为例,图3中说明了基于不确定性的表示增强过程。具体来说,给定单模态分布表示 ,首先从多元高斯分布中随机采样一个锚点和一个增强点 作为匹配对。此外,从其他分布表示中随机采样一组负点,并设计一种自监督对比学习机制,如下所示:

RMFI

通过 SUFA,获得了具有一致语义的稳定单峰表示。然而,只考虑每种模态的一致性,而忽略了重复表示造成的冗余。为此,文中提出了鲁棒多模态特征集成(RMFI)模块。RMFI 模块的概述如图 4 所示。

图片图 4. RMFI 模块的图示。分别为基于分类和基于回归的下游任务提供 CrossEntropy 损失和 L1 损失。

动态多模态集成。受动态多模态融合的启发,作者假设不同的模态对观察到的标签空间的联合表示有不同的贡献。首先应用基于注意力机制的动态多模态集成策略。具体来说,给定稳定的单模态表示 ,根据量化的不确定性 计算跨模态分布表示中的注意权重,并将其应用于多模态积分:

其中 , 表示 m 模态的多元高斯分布的集成联合表示和平均方差。通过这种方式,初步将稳定的单模态表示集成到联合表示中,其中动态估计不同模态的贡献。

联合表示压缩。 在SUFA模块中,充分考虑了不同模态语义的一致性,以避免单模态数据中的噪声。然而,由于不同模态之间具有相似的多元高斯分布,冗余的重复信息将被引入联合表示中。因此,文中设计了一种带有变分信息瓶颈(VIB)的联合表示压缩。具体来说,给定标签空间中的初步联合表示 和目标观测值 y,学习潜在空间中的压缩联合表示:

图片

最终压缩联合表示采用重新参数化技巧:

由于所提出的方法可以应用于不同的下游任务,因此这里为联合表示压缩提供了两个训练目标。具体来说,将交叉熵用于基于分类的任务:

图片

其中代表softmax函数,是用于分类的深度学习模型,λ是超参数。对于基于回归的任务,采用均方误差作为训练目标:

图片

实验结果

本文在五个多模态基准数据集(如CMU-MOSI、CMU-MOSEI、MVSA-Single等)上进行评估,验证了EAU方法在多模态情感分析和图像分类任务中的有效性。实验结果表明,EAU在所有任务中均优于现有的最先进方法,尤其在面对噪声数据时表现出更强的鲁棒性。此外,消融实验表明,SUFA和RMFI模块在提升模型性能和稳定性方面发挥了重要作用。

表 1. 在 MSA 和 MIC 任务上与最先进的多模态融合方法的比较。CMU-MOSI 和 CMU-MOSEI 数据集包含视频、音频和文本。MVSA-Single 和 Food-101 数据集由文本和 RGB 图像组成。NYU Depth v2 包含 RGB 和深度图像。请注意,CMU-MOSI 和 CMU-MOSEI 用于基于回归的 MSA 任务,而其他用于基于分类的 MSA 或 MIC 任务。图片

图 5. 在不同噪声数据下经过 10 次以上随机实验评估的稳健性分析。图片

图 6. 训练过程中训练收敛和性能波动的分析。图片

图 7. t-SNE 在 MVSA-Single 数据集上的联合表示可视化。这里我们采用 Concat 作为没有 RMFI 的消融模型。图片

ICML 2024 |多模态最新进展!单模态增益多模态学习,解决多模态和单模态学习目标梯度冲突问题

图片

简介

具有针对性的单模态学习目标的多模态学习方法在缓解多模态学习不平衡问题方面表现出了卓越的功效。然而,之前被忽视的多模态和单模态学习目标之间的梯度冲突,这可能会误导单模态编码器优化。为了很好地减少这些冲突,作者观察了多模态损失和单模态损失之间的差异,其中更容易学习的多模态损失的梯度幅度和协方差都小于单模态损失。利用这一特性,文中分析了多模态场景下的 Pareto 积分,并提出了 MMPareto 算法,该算法可以确保最终梯度的方向对所有学习目标都是通用的,并增强幅度以提高泛化能力,从而提供单模态辅助。

研究动机

多模态学习过程中存在模态不均衡问题,即大多数多模态模型不能很好地联合利用所有模态,对每种模态的利用不平衡。此外,在多任务场景下,模型优化中存在先前被忽视的风险,这也可能会限制模型的能力。不可否认,单模态学习目标有效地增强了相应模态的学习。同时,单模态编码器参数的优化受到多模态联合学习目标和自身单模态学习目标的影响。这需要同时最小化两个学习目标,但通常不存在一组可以满足该目标的参数。因此,这些多模态和单模态学习目标在优化过程中可能会发生冲突。在图 1a 中,以广泛使用的 Kinetics Sounds 数据集上的视频编码器为例。可看出负余弦相似度表明多模态和单模态梯度在优化过程中确实存在方向冲突。特别是,早期训练阶段的这些冲突可能会严重损害模型能力,从而导致主要的多模态学习可能会受到干扰。

图片

论文贡献

(1)提出了多模态帕累托(MMPareto)算法,该算法在梯度积分时分别考虑方向和大小。它确保了无害的单模态辅助,其中最终梯度的方向是所有学习目标的共同方向,并增强了泛化能力。

(2)对该方法的收敛性进行了分析。基于多种类型数据集的结果,该方法有效缓解了不平衡的多模态学习问题,并且可以很好地配备具有密集跨模态交互的模型,例如多模态 Transformers 。单模态性能甚至优于单独训练的单模态模型,这是以前很少实现的。

(3)验证了所提出的方法还可以扩展到任务难度存在明显差异的多任务情况,表明其可扩展性。

MMPareto方法

类似多任务的多模态框架

在多模态学习中,模型有望通过整合多种模态的信息来产生正确的预测。因此,经常存在多模态联合损失,需要融合多模态特征进行预测。然而,仅利用这种联合损失来一起优化所有模态可能会导致优化过程由一种模态主导,而导致其他模态严重优化不足。为了克服这种不平衡的多模态学习问题,引入针对每种模态优化的单模态损失被广泛使用,并被证明可以有效缓解这种不平衡的多模态学习问题。在这些场景中,损失函数为:

图片其中 是多模态联合损失, 是模态 k 的单模态损失。n 是模态的数量。我们主要考虑多模态判别任务,并且所有损失都是交叉熵损失函数。这种类似多任务的多模态框架如图 2 的左侧部分所示。

图片

SGD 属性和假设

多模态框架同时具有多模态损失函数和单模态损失函数。对于,模态k的单模态编码器参数、迭代t处的和的梯度满足:

图片

其中和是批次采样协方差。在多模态情况下,单模态损失仅接收基于相应模态数据的预测。相比之下,多模态损失通过来自所有模态数据的更充分信息进行优化,使其更容易训练。经验证,多模态损失比单模态损失收敛速度更快,训练误差更低.

基于之前的研究和作者在文中的验证,可提出假设1:

假设1. 在多任务多模态情况下,对于共享单模态编码器,单模态损失的梯度往往比易于学习的多模态损失具有更大的幅度和更大的批量采样协方差。

多模态学习中的帕累托积分

在多模态情况下,多模态损失和单模态损失紧密相关但它们的梯度仍然可能存在冲突,如图1a。因此,如何很好地整合θ和θ是需要解决的问题。这符合多任务学习中帕累托方法的思想。在帕累托方法中,在每次迭代时,梯度被分配不同的权重,加权组合是最终的梯度,它可以提供有利于所有学习目标的下降方向。最后,参数可以收敛到权衡状态,即帕累托最优,其中任何目标都不能在不损害任何其他目标的情况下推进。将帕累托积分引入多模态框架是很自然的,避免了多模态和单模态梯度之间的冲突。对于模态 k,帕累托算法被公式化来求解:

图片

其中表示L2范数。为了简洁起见,在某些部分将模态 k 表示为。这个问题等价于寻找梯度向量族的凸包中的最小范数。帕累托最优的必要条件是这个优化问题的最小范数为 0,并且相应的参数是帕累托平稳,或者它可以提供所有学习共同的下降方向目标。

多模态帕累托算法

基于以上分析,传统的帕累托方法在多模态学习中可能会导致极小值,进而削弱模型泛化能力。文中提出了多模态帕累托(MMPareto)算法,分别考虑冲突情况和非冲突情况。整体算法如图2所示。文中以模态k的编码器为例,所有模态的编码器都遵循相同的积分。为了简洁起见,还省略了 θ。

非冲突情况 首先考虑cos β ≥ 0 的情况。在这种情况下, 和 之间的余弦相似度为正。对于方向,梯度向量族 的任意凸组合对于所有学习目标都是通用的。因此,在这种情况下,在积分过程中指定 2 = 2 = 1 而不是 Pareto 解析解,以增强 SGD 噪声项。通过此设置,最终梯度为 ,噪声项为与传统 Pareto 噪声项相比,强度有所增强。

冲突情况 对于 cos β < 0 的情况,必须找到所有损失的共同方向,并在梯度积分过程中增强 SGD 噪声强度。因此,首先解决Pareto优化问题,得到和,这可以提供一个不冲突的方向。此外,为了增强噪声项的强度,增加了最终梯度的大小。以统一基线的大小为基准,在适当的范围内调整:

图片

总体而言,MMPareto 提供了无冲突方向和增强的 SGD 噪声强度,帮助模型收敛到更平坦的最小值并更好地泛化。除此之外,我们还分析了所提出的 MMPareto 方法的收敛性.

实验结果

图片根据表1,可以得出统一基线可以获得相当可观的性能,甚至可以优于或与这些不平衡的多模态学习方法相媲美。原因可能是单模态损失的引入有效地增强了每种模态的学习,这符合这些比较方法的核心思想。此外,与现有的多模态预测方法相比,MMpareto 方法具有无冲突优化过程,取得了相当大的改进。更重要的是,MMPareto方法同时表现出出色的单模态性能,甚至可以超越单独训练的单模态模型。例如,在 CREMA-D 和 Kinetics Sounds 数据集上,MMPareto 的音频准确性优于纯音频方法。这在之前的研究中是很少实现的。

中山大学、鹏城实验室等首发!CVPR 2024| DMR:分解多模态表示——视觉强化学习中帧和事件融合

[多模态机器学习与大模型](javascript:void(0)😉 2024年08月30日 10:00 英国

图片

论文链接:

https://openaccess.thecvf.com/content/CVPR2024/papers/Xu_DMR_Decomposed_Multi-Modality_Representations_for_Frames_and_Events_Fusion_in_CVPR_2024_paper.pdf

代码链接:

https://github.com/kyoran/DMR

简介

作者使用两种互补的视觉模态探索视觉强化学习 (RL)即基于帧的 RGB 相机和基于事件的动态视觉传感器 (DVS)。现有的多模态视觉强化学习方法仅使用间接奖励信号而不是像素级监督,无法从多种模态中有效提取任务相关信息,同时抑制增加的噪声。 针对这一挑战,文中提出了一种用于视觉强化学习的分解多模态表示(DMR)框架。将输入显式分解为三个不同的组成部分:组合的任务相关特征(协同特征)、RGB 特定噪声和 DVS 特定噪声。协同特征代表了与 RL 任务相关的两种模态的完整信息;将两个噪声分量与协同特征进行对比,以最大化它们的差异,每个噪声分量都受到数据重建损失的限制,以避免信息泄漏。实验表明,通过明确分离不同类型的信息,与最先进的方法相比,该方法显著提高了policy性能。

研究动机

基于帧和基于事件的相机的集成已经被探索用于对象检测和深度估计等任务。然而,在基于视觉的 RL 中,仅使用时间差分 (TD) 损失将整个观察结果映射到决策,而没有像素级或实例级监督,只需聚合帧和事件可能会导致噪音和与任务无关的信息增加。这种现象会导致潜在状态空间中注入噪声,并导致强化学习性能下降。

针对以上挑战,**文中将帧和事件中的信息分为三种不同的类型:**1)组合的任务相关特征,称为协同特征;2)RGB特定噪声和与任务无关的特征,或简单的RGB噪声;3) DVS 特定噪声和与任务无关的特征,或 DVS 噪声。协同特征代表来自两种模式的完整信息,这对于 RL 任务至关重要,而噪声代表可能对 RL 过程产生负面影响的不需要的信息。

图片

如图1所示,结合帧和事件有助于提取重要区域,包括行人和道路边缘。仅使用任何一种方式都很难精确识别这些区域。值得注意的是,这三个部分都是潜在的,只有通过与环境交互收集的奖励可以作为学习过程中的外部指导,这与标准强化学习流程一致。

论文贡献

(1)提出了一种在基于视觉的 RL 中融合 RGB 帧和 DVS 事件的新方法,强调了分解表示学习的概念。这种方法是通过融合基于框架和基于事件的模态来处理强化学习任务的开创性努力。

(2)设计了一种新的三分支学习框架,可以有效地将任务相关信息与噪音分开。这种过滤过程减轻了潜在状态空间中的噪声注入,事实证明对下游策略学习非常有益。

(3)使用 Carla 基准进行全面的实验。结果验证了该方法在各种交通场景和恶劣天气条件下的有效性。

DMR方法

DMR方法中强化学习流程包含两个主要组成部分:多模态表示学习和策略学习。具体来说,智能体从联合观察空间 П获得多模态感知,其中 。这里,被定义为d个子观察空间的笛卡尔积,每个代表模态的观察空间。联合状态是通过连接多个模态的多个连续视觉观察而形成的,即 。agent学习将原始高维状态 编码为紧凑表示 用于后续策略学习。

图片

由于强化学习直接从整个观察中学习策略,而无需像素级监督的指导,因此异构模态在提取对策略至关重要的任务相关特征方面提出了挑战。因此,作者提出了 RL 的分解多模态表示(DMR)框架,如图 2 所示。该框架主要集成了两种模态,RGB 帧和 DVS 事件,即 和 。

DMR 中的事件处理

DVS 可以捕获独立的像素级光强度变化,从而生成异步事件流,流中的事件被定义为四属性元组,当时间戳处像素的对数强度超过预定义阈值时触发。这个过程可以描述为:

图片

其中Δt是DVS的采样率,极性根据强度变化确定,1代表增量,-1代表减量。

在处理异步 DVS 事件时,通常的做法是将固定长度时间窗口内的事件转换为固定大小的张量表示,称为体素网格(voxel grid)。为了与 RGB 帧的低采样率同步事件,在 RGB 帧的固定时间间隔内对传入事件进行分区。成对帧之间发生的事件被离散化为具有 B 个时间仓的时空体素网格。体素网格中的每个元素具有三个维度,二维位置()和时间维度()。

图片

文中设置B=5,RGB采样率为20Hz,即Δd=0.05s。因此,对DVS相机在每个时间t的观测进行预处理,形成体素网格,然后将其输入DMR。

DMR 中的表示学习

由于 RGB 和 DVS 相机的工作原理不同,即使产生相似的策略,两种模态的表示也可能存在显著差异。将 分解为协同特征 和特定于模态的噪声:

图片 为模态 的原始观察 的表示。为了实现这一点,DMR 包括三个分支,如图 2 所示。上分支和下分支分别将 RGB 帧和 DVS 事件作为输入。然后,数据通过各自的编码器以生成特定于模态的噪声。中间分支将 RGB 和 DVS 的串联作为输入。其输出协同特征由参数化的中间编码器生成。

为了确保信息的完整性,使用重建解码器,表示为 ,以确保可以恢复各个原始观测值:

图片

基于DMR的强化学习

分解完整的观测输入后,使用提取的协同特征为下游任务制定策略。这些协同特征与无关信息隔离,使它们能够更有效地支持下游控制的目标。作者修改了基线 RL 算法 SAC (soft actor critic),以与协同特征驱动的策略学习方法保持一致。在此过程中,文中利用贝尔曼方程和编码器生成的协同特征来估计动作值 Q 和状态值 V:

图片

图片

策略 可以从以下公式得出:

图片

由于策略优化仅协同由特征驱动,因此在测试阶段可以省略两个噪声分支的辅助编码器。这意味着 DMR 在测试过程中仅保留编码器 和策略学习网络 ,从而实现从高维多模态观察到视觉运动策略的有效映射。

实验

文中采用Carla来建立新的 Carla 基准。Carla 支持具有不同光照和天气条件的丰富场景。它是少数允许同时生成异步事件和 RGB 帧的模拟器之一。

图片

DMR 与单模态和多模态算法进行比较。对于单模态基线,维持 DeepMDP 作为基线 RL 算法,采用前面介绍的三种类型的感知输入,即 RGB、DVS 和 DVS-F。由于之前没有结合 RGB 帧和 DVS 事件的 RL 算法,对于多模态基线,作者将 DMR 与最先进的 (SOTA) 多模态融合方法进行比较,包括 TransFuser、EFNet、FPNet和 RENet。表 1 列出了 Carla 基准上 100K 训练步骤后的评估结果。JW-Midnight 场景中训练阶段的情节奖励曲线如图 4 所示,展示了DMR方法的优越性。

图片

图片

ICML 2024|多模态数据融合理论创新!天津大学提出预测多模态动态融合框架

Predictive Dynamic Fusion

  • 作者列表: Bing Cao, Yinan Xia, Yi Ding, Changqing Zhang, Qinghua Hu

  • 作者单位:

    • 天津大学智能与计算学院
    • 天津大学机器学习重点实验室
  • 论文链接: https://arxiv.org/abs/2406.04802

  • 代码链接: https://github.com/Yinan-Xia/PDF

简介

多模态融合对于联合决策系统做出整体判断至关重要。由于多模态数据在开放环境中发生变化,动态融合应运而生,并在众多应用中取得了显着进展。然而,现有的大多数动态多模态融合方法缺乏理论保证,很容易陷入次优问题,产生不可靠性和不稳定。为了解决这个问题,本文提出了一个用于多模态学习的预测动态融合(PDF)框架。从泛化的角度揭示多模态融合,并从理论上推导出具有单置信度和全息置信度的可预测协作信念(Co-Belief),能够有效减少泛化误差的上限。本文还提出了相对校准策略,进一步校准协作信念,以应对潜在的不确定性。通过多个基准数据集的实验,验证了该方法在不同噪声环境下的可靠性和性能优势。

研究动机

  • 直观上,通过使用每种模态的整体质量估计来融合多模态数据的信息是合理的。然而,由于单模态不确定性和多模态系统相对可靠性的变化,数据质量估计并不总是可靠。文中根据经验发现,每种模态的主导地位在开放环境中都在动态变化。
  • 可靠的多模态学习的一个基本挑战是如何精确估计每种模态对多模态系统的贡献。然而,现有的多模态动态融合技术主要侧重于通过探索动态网络架构或通过不确定性估计模态质量来解决该问题,通常缺乏理论保证,导致效果不理想。

论文贡献

  • 提出了一种基于广义误差上界的多模态融合框架:基于融合权重和损失函数的协方差推导了一个新的预测动态融合(PDF)框架,为降低决策级多模态融合中泛化误差的上限提供了理论保证。
  • 提出协作信念(Co-Belief)框架:将损失预测转化为更鲁棒的协作置信(Co-Belief)预测,它自然满足协方差关系以减少泛化误差的上限,而无需额外的计算成本,并显着增强预测稳定性。
  • 相对校准策略:为解决不确定性,提出相对校准策略,能够动态调整模态权重。
  • 理论保证和实验验证:从理论上推导了泛化误差上限的减少条件,并通过多个数据集的实验验证了方法的有效性。

Predictive Dynamic Fusion

总体框架

Predictive Dynamic Fusion框架基于协作信念,结合单模态置信度(Mono-Confidence)和跨模态置信度(Holo-Confidence)进行动态融合。

图片图 1. 使用置信度预测器来预测每种模态的单置信度,理论上,置信度与相应模态的损失呈负相关。考虑到其他模态的 Mono-Confidence,进一步获得 Holo-Confidence,其中置信度与其他模态的损失呈正相关。通过结合 Mono-Confidence 和 Holo-Confidence,从而得到 Co-Belief,将其校准为融合权重,以实现泛化误差范围的减小。

主要公式

  1. 单模态置信度(Mono-Confidence):通过预测每个模态的置信度来衡量其对正确分类的贡献,公式为:

    其中, 是预测的正确类别概率。

  2. 跨模态置信度(Holo-Confidence):跨模态置信度考虑到其他模态的置信度,通过其他模态的损失进行权重调整:

    其中,为第j个模态的损失。

  3. 协作信念(Co-Belief):最终的融合权重为单模态和跨模态置信度的线性组合:

  4. 相对校准:为了应对开放环境中的数据质量变化,提出相对校准策略,根据不同模态之间的不确定性动态调整权重:

    其中,为模态m的分布均匀性。

多模态动态融合

数据质量通常在开放环境中动态变化,导致预测不可避免地存在不确定性。为了降低复杂场景下 CoBelief 的潜在不确定性,文中进一步提出了相对校准(RC),从多模态系统的角度来校准预测的 Co-Belief。这意味着每种模态的相对主导地位应该随着其他模态质量的变化而动态变化,而不是静态的

首先,我们将多模态系统中第 m 模态的分布均匀度 定义为:

图片其中 C 是类号,μ 是概率平均值,且满足 μ = 1/C 。Softmax 之后的概率分布为模型的不确定性提供了重要的见解:均匀分布通常表明较高的不确定性,而峰值分布则意味着预测的较低不确定性。

考虑到不断变化的环境,多模态系统中不同模态的不确定性应该是相对的,即每种模态的不确定性应该随着其他模态的不确定性的变化而动态变化。一种模态应该动态地感知其他模态的变化并修改其对多模态系统的相对贡献。因此,文中引入了相对校准(RC)来校准每种模态的相对不确定性。第 m 模态的相对校准可以表述如下(在具有两种模态的场景中,表示为 m,n ∈ M):

图片

考虑到现实世界的因素, 采用不对称的形式来进一步校准共同信念。具体来说,假设 的模态具有更大的不确定性,并且往往会产生相对不可靠的预测,因此相应的协同信念在准确性方面存在潜在风险。因此,我们通过将其预测的共同信念乘以 ( < 1) 来减少这种模式的贡献。相反, > 1 的模态被认为具有较小的不确定性和准确的共同信念,因此可以保持这些模态的贡献以降低优化难度。基于此,非对称校准项定义为:

图片

使用非对称校准策略校准第 m 模态的共同信念,并获得校准共同信念(CCB):

图片

最后使用每种模态的 CCB 作为多模态系统中的融合权重,

图片

实验结果

在多个数据集上进行了实验验证,包括图像-文本分类、场景识别、情感识别等任务。实验表明,PDF方法在多模态数据上具有更好的泛化能力,尤其是在高噪声条件下,其性能优于现有的最先进方法。此外,通过消融实验验证了各模块的有效性,协作信念和相对校准策略对模型的鲁棒性和稳定性有显著提升。

表 1. 使用每种模态的 CCB 作为其在多模态系统中的融合权重。

图片

图 3. 在 NYU Depth V2 数据集上评估了单一置信度、共同置信度和校准共同置信度作为融合权重的有效性,以确定它们在最小化泛化误差上限方面的有效性。图 3 (a)、(b) 或 © 中饼图的黄色部分说明了在不同噪声(0、5 和 10)下每种权重形式的泛化误差界递减比例 (GDP)。如图 3 © 所示,校准后的共同信念获得了最高的 GDP,从而实现了最佳的泛化。图 3 (d) 显示了不同融合策略和噪声强度的 GDP。

图片

TPAMI 2024|跨模态联邦学习!中科院自动化所提出跨模态联邦人类活动识别方法

Cross-Modal Federated Human Activity Recognition

  • 作者列表: Xiaoshan Yang , Baochen Xiong ,YiHuang , and Changsheng Xu

  • 作者单位:

    • 中国科学院自动化研究所、鹏城实验室
  • 论文链接:IEEE DOI: 10.1109/TPAMI.2024.3367412

简介

本文研究了跨模态联邦人类活动识别(CM-FHAR)的新问题,有利于推动HAR模型在更多本地设备上的大规模使用。CM-FHAR 至少存在三个挑战:1)分布式通用跨模态特征学习,2)模态相关的判别特征学习,3)模态不平衡问题。 为了应对这些挑战,作者提出了一种模态协作活动识别网络(MCARN),全面学习所有客户端共享的全局活动分类器和多个依赖于模态的私有活动分类器。为了产生与模态无关和特定于模态的特征,在分离损失的约束下学习利他编码器和以自我为中心的编码器以及在超球体中协作学习的对抗模态鉴别器。为了解决模态不平衡问题,文中还设计了角度边距调整机制,增强了主要模态的内部紧凑性,并增加了不同模态间的区分度。实验结果表明,该方法在多模态和模态不平衡数据上都取得了最先进的性能。

研究动机

联邦学习被广泛应用于人类活动识别(HAR),能够保护用户隐私,但当前的研究主要集中于单模态或多模态下数据分布相同的场景。然而,在现实中,不同客户端往往拥有不同模态的数据,例如某些客户端可能提供运动传感器数据,而其他客户端则仅提供视频数据。这种模态不一致性增加了建模的难度,基于上述考虑,本文研究了跨模态联合人类活动识别(CM-FHAR)的新任务,其重点是分布式聚合在不同模态的客户端上学习的本地模型,如图 1 所示。

图片图 1. CM-FHAR © 与传统联合人类活动识别 (FHAR) 任务 (a)、(b) 的比较。

与传统的单模态或多模态 FHAR 任务相比,CM-FHAR 任务至少面临以下三个挑战:

1)如何为具有跨模态异构性的不同客户端分布式构建公共特征子空间。 在CM-FHAR任务中,不同本地客户端的数据总是具有非常不同的结构和内容,例如,传感器信号以三轴值的序列记录,而视频具有更加复杂的空间和时间信息,这导致比传统的联邦 HAR 具有更大的分布异质性。为了同步利用所有客户端上的分布式数据,我们需要为不同客户端学习一个公共子空间,以消除跨模态异构性。这很困难,因为隐私限制阻止我们像传统的跨模态嵌入方法一样将分布式本地数据组织在一起以学习共享特征空间。

2)如何找到有助于区分特定客户端活动的模态相关特征。 在 CM-FHAR 任务中,由于跨模态异质性,不同的客户端可能有不同的判别模式。例如,对于拥有视频数据的客户来说,识别网球拍的视觉模式以正确识别打网球的活动是有用的。然而,这种辨别能力对于具有加速度计或陀螺仪信号的客户端来说是多余的。

3)如何解决模态不平衡问题。 由于数据多样性,从某些设备(例如移动传感器)收集和注释样本总是比从其他设备(例如相机)收集和注释样本更困难,这自然会导致模态不平衡的数据。在这种情况下,可能只有少数本地客户具有稀有模式的标记样本,而主导模式的客户相对丰富,这将为 CM-FHAR 任务带来额外的困难。

论文贡献

  • 新问题定义: 本文首次提出了跨模态联邦人类活动识别问题(CM-FHAR),适用于在不同设备上学习和应用人类活动模型。
  • 模态协作识别网络(MCARN): 设计了一种模态协作的活动识别网络,能够学习模态无关的全局分类器和模态依赖的私有分类器。
  • 角度边距调整机制: 提出了灵活的角度边距调整机制,有效解决了模态不平衡问题,增强了主要模态的紧凑性并增加了模态间的区分度。
  • 关系感知全局-本地校准: 提出了一种关系感知的校准机制,通过全局和本地的配对关系约束,提升了稀有模态分类器的稳定性。

模型框架

图片图 2. 跨模态联合人类活动识别框架。为简单起见,我们假设该图中存在三种模态(即 M = 3)。在每个本地客户端上,我们首先使用利他编码器 和自我中心编码器 来产生模态不可知特征(即,)和模态特定特征(即,),这些特征进一步用于学习共享活动分类器 ψsc 和私有分类器分别是活动分类器ψpc。采用模态鉴别器 ψmd 来对抗性地指导利他和自我中心编码器的参数学习。服务器接收来自不同客户端的更新的局部模型,并通过加权平均获得全局模型。对于共享活动分类器和模态鉴别器,我们直接聚合来自所有客户端的本地模型的参数。对于利他编码器、自我中心编码器和私有活动分类器,我们进行模态感知聚合,以使具有相同模态的客户端共享参数。

MCARN网络包括模态无关编码器(altruistic encoder)、模态特定编码器(egocentric encoder)、全局共享分类器和私有分类器,以及一个模态判别器。整个框架通过联邦学习进行训练,包含本地更新和全局聚合两个交替步骤:

  1. 模态无关特征学习: 使用模态无关编码器将输入嵌入模态不可知的特征空间。
  2. 模态特定特征学习: 使用模态特定编码器获取模态依赖的特征表示。
  3. 模态判别器: 通过对抗学习的方式,引导模态无关编码器和模态特定编码器的参数学习。
  4. 角度边距调整: 对模态不平衡的数据应用边距调整机制,增强主要模态的内部紧凑性并增加模态间差异。
  5. 全局-本地校准: 通过约束共享分类器和私有分类器的类级配对关系,提升稀有模态下的私有分类器的稳定性。

损失函数

  • 模态判别损失:
  • 角度边距调整损失:
  • 关系感知校准损失:

实验结果

本文在四个公共数据集上进行了广泛实验,验证了MCARN的有效性:

  • 数据集: 实验使用了Epic-Kitchens、Multimodal-EA、Stanford-ECM和Ego-Exo-AR等数据集。
  • 结果: MCARN在所有数据集上均优于现有的最先进方法,特别是在模态不平衡的情况下表现尤为突出。该方法能够有效减少不同模态间的异构性,并提高少数模态的识别性能。实验还包括了消融研究,展示了各模块的有效性。

表 I 在四个数据集上与最先进方法的比较结果图片

表 III 在四个数据集上的消融实验

图片

图片图 3.(a)Epic-Kitchens、(b)Multimodal-EA、(c)Stanford-ECM、(d)Ego-Exo-AR 上不同模态失衡率的实验结果(所有模态的平均值)。ADJl 表示对数调整,ADJa 表示角度裕度调整,CAL 表示关系感知全局局部校准。

TPAMI 2024 |多模态学习最新综述!普林斯顿大学、武汉大学等从数据视角解读多模态学习

爱学习的墨小呆 [多模态机器学习与大模型](javascript:void(0)😉 2024年10月02日 08:13 英国

图片

点击上方蓝字关注我们

图片

图片

论文链接:

https://arxiv.org/pdf/2210.02884

简介

作者从数据角度对多模态机器学习进行了综述,不仅考虑了技术方面,还考虑了不同数据模态的内在本质。文中分析了每种数据格式的共性和独特性,主要包括视觉、音频、文本和动作,然后介绍了按数据模态组合分类的方法论进展,例如视觉+文本,稍微强调了视觉数据。此外,文中从表示学习和下游应用层面研究了多模态学习的现有文献,并根据它们与数据性质的技术联系进行了额外的比较,例如图像对象和文本描述之间的语义一致性以及节奏视频舞蹈动作和音乐节拍之间的对应关系。作者希望利用对齐以及数据模态本质与技术设计之间存在的差距,以更好地解决与具体多模态任务相关的特定挑战,从而促进统一的多模态机器学习框架更接近真实的人类智能系统。

综述结构

与其他关于多模态学习的综述相比,这篇综述从数据本身的独特角度来处理这个问题。这种新颖的视角能够在多模态数据的固有特征和方法设计之间建立联系,从而从两个主要方面对多模态研究的未来进行深入的讨论。一方面,强调和利用特定数据模式的独特特征将有助于解决与这些模态相关的具体应用问题。另一方面,认识到不同模态之间的共性将使研究人员能够构建一个更加统一和协作的框架,反映真实人类智能系统的能力。 综述结构如图1所示。

图片

数据分析

文中通过分析多种数据模式的特征和共性来详细阐述多种数据模态的本质。表1 给出了常用多模态数据集的列表,并附有详细说明。

图片

视觉

文中将视觉数据分为图像和视频。作为人类感知系统和计算机视觉文献中的主要信息源,视觉数据因其高维度而通常被认为是“原始数据”。它包含丰富的功能和细节,代表丰富的视觉内容。然而,连续空间和时间方面的冗余给多模态学习任务的处理、分析和高效利用带来了挑战。(具体说明可参考原文)

音频

传统上,音频处理的研究主要集中在数字信号处理的研究领域。文中重点介绍三种主要类型的音频数据:语音、音乐和环境声音。图 2. 不同音频数据表示形式的图示。从上到下:(a)波形中的原始音频数据; (b) 梅尔谱图中的音频数据; © 一维钢琴卷轴音乐片段,其中水平轴和垂直轴分别表示时间戳和音频音高; (d) MIDI 音乐作品,其中颜色代表不同的乐器类型。这些音频类型中的每一种都在各种多模态任务应用中具有相关性和适用性,进一步强调了多模态学习背景下音频数据的多样性。与视觉数据类似,音频信号是一种可以直接从环境中捕获的“原始数据”形式。然而,与静态图像不同,音频信号在时间维度上具有固有的连续性。

图片

文本

文中主要关注介绍与其他数据模态密切相关的几种类型的文本数据。近年来,NLP 社区受到了极大的关注,特别是在开发 GPT-3 等大型语言模型(LLM)方面取得了巨大成功。 NLP 的巨大成就与文本数据和语言的本质密切相关。与可视为“原始数据”的视觉和音频信息不同,文本数据经过大量处理。更具体地说,它是一种经过人类文明演变而来的数据类型,尽管存在语言差异,但其特点是格式高度统一、语义精确。它意味着文本信息丰富且紧凑,而视觉和音频信号通常包含丰富的信息冗余。应用端文本的另一个独特特征是,大多数 NLP 任务的问题表述可以统一在“下一个词标记预测”的概念下。该公式代表了各种 NLP 任务中的通用底层结构,有助于该领域的连贯性和一致性,以及通过大型基础模型解决多个任务的潜力。

其他模态

多模态学习涵盖了除视觉、音频之外的各种数据模态和文本。例如(a)图形数据通过节点和边提供关系信息的结构化表示,捕获元素之间的连接和交互。(b)光流, 光流的概念在上个世纪首次被提出,作为一种测量方法来表征视觉场景中由观察者和场景之间的相对运动引起的物体的运动。©点云和网格。点云和网格都是 3D 数据的重要形式,提供空间和结构信息,丰富我们对物理环境的理解。

多模态表示学习

多模态表示学习分为三个部分:几种流行的网络架构和评估的介绍、监督学习设置和非监督设置。这种分类背后的基本原理是基于多模态表示学习领域已经经历了从传统的监督表示到大规模预训练的转变。监督学习环境下的经典方法通常需要完全注释的数据来训练网络,从而由于繁琐的标记工作而对可用训练数据集的大小施加了限制。

为了克服瓶颈,多模态表示学习的研究趋势已经转向“无监督”设置,使用不一定需要人工注释的数据。这些数据集通常直接从互联网收集,并由来自不同模态的配对数据组成。值得注意的是,虽然这些数据集在模态之间具有内在的对应性,但由于缺乏手动标记,它们在本次综述中被认为是不受监督的。值得注意的是,这些非监督方法受益于更大的数据集大小,并且见证了模型规模的增加。因此,在非监督表示学习工作的3.3节中,文中主要介绍近年来引起广泛研究关注的大规模预训练研究。多模态背景下表示学习的主要研究目标是学习来自多种模态的相应数据表示之间的有效且有区别的映射。

判别性任务应用

文中讨论了用于判别性任务应用的多模态学习工作,其中以 “Vision+X”的形式按特定数据模态组合进行分类,其中X代表附加数据模态。多模态学习的总体方法论设计遵循“分离处理”和“统一融合”的思想。 更具体地说,首先使用各自的网络分支处理不同模态的数据,然后通过额外的互模块进一步进行模态间学习,然后输出不同任务的最终结果。由于确切的目标取决于任务场景。在评估方面,不同的多模态任务有其相应的评估协议。

生成任务应用

文中重点关注了生成应用程序的跨模态合成任务。这些任务涉及从特定模态或多种模态生成数据作为输入。在跨模态合成任务中通常有两种高级方法来生成数据:从给定数据库中检索项目,或者通过神经网络直接合成和解码数据。对于基于检索的生成,核心思想遵循搜索与“生成”数据最相似的一个或多个项目的逻辑。很大一部分基于检索的工作在数据表示级别上执行相似性测量,而没有实际考虑解码部分。从技术上讲,作者认为此类作品属于表征学习部分。因此,主要关注介绍“真正生成”数据的工作,而不是在本节中检索项目以进行生成应用程序。表2给出了生成任务中的评价指标。图片

生成网络分为:

基于 VAE 的模型 自动编码器的核心依赖于这样一个前提:经过有效训练的编码器应该以可以对编码表示进行解码以重建解码器输入的原始数据的方式来学习数据表示。与传统的自动编码器相比,VAE 通过使用高斯先验重新参数化潜在空间来引入瓶颈级别的正则化,其中学习的高斯参数允许对新数据进行采样。 VAE 的典型训练通常包括两种类型的损失,即变分损失(ELBO),它由潜在表示空间上的正则化损失(例如 Kullback-Leibler 散度)和输出数据上的重建损失组成(例如,均方误差 (MSE)。

基于 GAN 的模型 与 VAE 类似,基于 GAN 的模型的训练不需要外部注释,只需要真实的原始数据,因此经常用于无监督或弱监督的环境中。 GAN 的标准训练还从潜在空间正则化(也称为对抗性损失)和重建优化两个方面最大限度地减少损失。继原始工作之后,人们提出了 GAN 模型和对抗性损失的多种变体,例如具有 Wasserstein 损失的 Wasserstein GAN 和条件 GAN。

基于 DPM 的模型 与 VAE 和 GAN 相比,扩散概率模型(DPM)是近年来非常流行的另一种生成backbone。原则上,DPM 包括两个相反方向的有限步骤的马尔可夫链。前向,也称为“扩散”过程,旨在在每个扩散步骤中逐渐向给定数据添加噪声,而逆向去噪过程旨在消除前向步骤中添加的噪声,并从非信息性数据中恢复实际数据。噪声分布。传统 DPM 有两种变体,它们在马尔可夫链的状态空间公式中有所不同。经典 DPM 假设状态空间是连续的,并用高斯噪声参数化扩散过程、而 DPM 的另一种变体则考虑离散状态空间,并用状态转移矩阵来表示扩散过程。变分下界是用于有效DPM学习的经典损失函数,其他实际损失包括辅助损失、无分类器指导和对比扩散损失。

多模态学习未来展望

多模态机器学习的研究多种多样,从一般表示学习到特定领域内的详细下游任务。在介绍了涉及其他模态的视觉和数据的各种判别性和生成性多模态应用之后,作者从技术设计和与数据属性的联系的角度重新审视和总结了现有的工作。对于涉及视觉和音频数据的判别任务,可以从介绍的现有工作中观察到,大多数工作都遵循包含单独数据编码器、跨模态注意特征融合以及为各种不同设计的解码器模块的通用流程。值得注意的是,所有现有的工作都将环境音频数据作为一个整体进行处理,而没有专门研究音频信号的声学特征。例如,某些类型的环境音频信号可以包括比其他信号更高的音调和频率,这可以用作纯粹基于视觉的识别的强补充指示符。相比之下,现有的涉及音频的生成作品更多地探索了节奏、音高和流派等分离的特征,以用于合成和编辑目的。对于视觉与文本(自然语言)的结合,早期代表性的经典方法往往采用LSTM模型来处理带有词序的文本语言数据。后来,Transformer 模型的成功促进了多模态学习环境中文本处理分支从 LSTM 到 Transformer 的快速技术过渡。

回到当前的多模态研究,虽然近年来取得了巨大成功,但未来研究的挑战仍然存在。从技术角度来看,作者认为未来的研究方向可以归纳为与数据模态的连接两个方向。一方面,研究界正在寻求建立一个统一且通用的模型,以有效地学习所有感兴趣模式的表示。这样一个统一的模型,类似于大规模预训练模型,应该对各种下游应用有很大帮助,例如特定的跨模态生成、交互式编辑和评估。另一方面,随着日常生活中对更细粒度和细节的应用程序的需求不断增加,期望为更具体和精心设计的任务开发并实现更好的性能。

多模态学习的另一个可能的未来方向可能是最终多模态感知人工智能系统的人工干预。由于多模态学习的最终目标是将智能赋予机器作为真正的人类,因此人类干预可能是指导这个快速发展领域的总体研究方向的关键部分。一个具体的例子可能是让人类对跨模态生成和一些下游任务(例如编辑)提供更多控制。

ICML 2024 | 深度解析多模态线性网络中的单模态偏差:突破与新发现!

爱学习的墨小呆 [多模态机器学习与大模型](javascript:void(0)😉 2024年09月21日 17:34 英国

图片

点击上方蓝字关注我们

图片

Understanding Unimodal Bias in Multimodal Deep Linear Networks

作者: Yedi Zhang, Peter E. Latham, Andrew Saxe

作者单位: Gatsby Computational Neuroscience Unit, University College London, Sainsbury Wellcome Centre, University College London

论文链接:

https://yedizhang.github.io/unimodal-bias.html

代码链接:

https://yedizhang.github.io/unimodal-bias.html

简介

同时使用多个输入流来训练多模态神经网络在直观上是有利的,但在实践中却具有挑战性。一个关键的挑战是单模态偏差,即网络在联合训练期间过度依赖一种模态而忽略其他模态。文中开发了一种多模态深度线性网络单模态偏差理论,以了解架构和数据统计如何影响这种偏差。这是首次根据网络内模态融合的深度、数据集统计和初始化来计算学习中单模态阶段的持续时间。文中表明,融合发生的层越深,单模态阶段越长。较长的单模态阶段可能导致泛化缺陷和过度参数化状态下的永久性单模态偏差。本文的结果来自多模态线性网络,在某些情况下可以扩展到非线性网络。总之,这项工作阐明了联合训练下多模态学习的病理,表明后期和中期融合架构可能导致较长的单模态阶段和永久性的单模态偏差。

研究动机

多模态神经网络在多个输入模态下的联合训练带来直观的优势,但也面临挑战,尤其是单模态偏差问题,即网络在联合训练中过于依赖某个模态,忽视其他模态。

多模态网络表现出单模态偏差的程度取决于数据集和多模态网络架构。关于数据集,研究者们通过构建更平衡的多模态数据集设法减轻了偏差。关于多模态网络架构,实证研究表明,单模态偏差出现在联合训练的后期融合网络和中期融合网络中,而早期融合网络可能会鼓励使用所有输入模态。现有研究虽然提出了一些缓解单模态偏差的经验性方法,但在理论上对单模态偏差如何受到网络配置、数据集统计和初始化影响的理解仍然很少。本文试图通过分析多模态深度线性网络,揭示单模态偏差的形成原因,并提供解决该问题的理论基础。

论文贡献

  • 提出了单模态偏差在多模态线性网络中的理论解释,揭示了后期和中间融合网络中单模态偏差的显著性。
  • 计算了后期和中间融合网络中单模态阶段的持续时间,解析了网络结构、数据集统计和初始化对该现象的影响。
  • 分析了单模态阶段中的错误归因现象及浅层模态偏好。
  • 证明了在过参数化情况下,长时间的单模态阶段会导致泛化能力下降和永久的单模态偏差
  • 提供了数值模拟验证,证明了其结论适用于线性和某些非线性网络。

多模态深度线性网络

通过多模态深度线性网络的梯度下降学习动态研究了单模态偏差问题。具体的网络结构为总深度为L的网络,在不同层次 进行模态融合。

多模态数据:定义输入相关矩阵与输入输出相关矩阵

给定一个由 P 个样本组成的数据集, 假设有两种模态 A 和 B,完整输入 。由于文中研究具有均方误差损失的多模态线性网络,因此学习动态仅取决于数据的相关矩阵。定义数据的输入相关矩阵为 和输入输出相关矩阵为 ,分别为

图片

多模态深度线性网络

图片图 1. 总深度为 L 且融合层位于 的多模态融合网络示意图。

定义多模态深度线性网络,其总深度 L 和 处的融合层定义为

图片

整个网络输入输出映射表示为,每个模态的映射表示为、。文中用W来统称所有权重参数。假设两个预融合层分支中的神经元数量具有相同的顺序。图 1 给出了该网络的示意图。

梯度下降动态

在小学习率的限制下,梯度下降动态可以用连续时间微分方程很好地逼近;对于融合前层 1 ≤ l ≤ :

图片

对于融合后层 + 1 ≤ l ≤ L,

图片

其中时间常数 τ 是学习率的倒数, 和 表示输出误差 与输入 、 之间的相关性,

图片

网络使用小的随机权重进行初始化。

两层多模态线性网络

图片图 2. 融合点对学习动态和损失情况的影响。顶行:早期融合。底行:晚期融合。两个网络都使用相同的数据集进行训练。(a,d) 网络示意图。(b,e) 训练轨迹。(c,f) 相图。后期融合将两个鞍形流形(蓝色和洋红色十字)引入损失视野中,导致学习轨迹在单模态解决方案附近趋于稳定。

文中研究了两层多模态线性网络,其中 L = 2。两层网络有两种可能的融合方案:早期融合,Lf = 1,如图 2a 所示;后期融合,Lf = 2 ,如图 2d 所示。

损失视野

如图 2b 和 2e 所示,早期融合网络几乎同时从两种模态学习,而后期融合网络在两个不同的时间学习两种模态,中间有一个明显的单模态阶段。对于这两个网络,损失轨迹都表现出类似阶段的行为。正如 Saxe 等人所研究的那样,从小型初始化训练的线性网络在大部分时间里学习缓慢,并通过 S 形过渡阶段从一个固定点或鞍座快速移动到下一个固定点或鞍座。我们表明,早期的融合网络有两个固定点流形,对应于它们的一个过渡阶段。相比之下,后期融合网络有两个不动点流形和两个鞍点流形,解释了它们的两个过渡阶段。

早期融合 早期融合网络中有两种不动点流形:一种是零点处的不稳定不动点,另一种是全局伪逆解处的稳定不动点流形:

图片

后期融合 后期融合线性网络具有与早期融合网络相同的两个固定点流形 、M*。此外,后期融合线性网络有两个鞍形流形 、,对应于学习一种模态而不是另一种,

图片

通过分析损失情况可以得出单模态偏差在后期融合线性网络中很明显,但在早期融合线性网络中并不明显。因此,后文主要关注后期融合网络。

单模态阶段持续时间

通过计算不同网络参数(融合层深度、输入输出相关性)和数据统计(输入模态之间的相关性)的影响,得出单模态阶段的持续时间为

单模态阶段的错误归因

图片图 3. 两层后期融合线性网络中单模态阶段的持续时间和错误归因量。

在单模态阶段, 尽可能地拟合输出,并且网络通过利用模态 B 的相关性将模态 B 贡献的一些输出错误地归因于模态 A。当模态相关时,局部伪逆解与全局伪逆解不同。具体来说,如果模态具有如图 3a 所示的正相关,则模态 A 的权重会过冲;如果如图 3b 所示为负相关,则模态 A 的权重会下冲。当模态 B 在时间 赶上时,这种错误归因就会被纠正,并且网络最终收敛到全局伪逆解。在图 3d 中,为了清楚起见,使用标量输入证明,当模态具有更强的相关性时,错误归因更加严重。

当模态不相关时,后期融合网络在单模态阶段不会错误归因,因为局部伪逆解与全局伪逆解相同。模态 A 的权重在时间 收敛到全局解,此后不再改变,如图 2e 所示。在这种情况下,后期融合网络的行为与两个单独训练的单模态网络相同。

浅层模态偏好

那么我们应该先学习哪种模态呢? 后期融合线性网络具有我们所说的“浅层模态偏好”。他们优先考虑学习速度更快的方式,这不一定是能带来更大损失减少的方式。文中得出结论,无论首先学习哪种模态以及单模态阶段有多长,网络最终都会收敛到零损失。但它们会影响过度参数化机制中的泛化误差

欠参数化和过度参数化

在参数化不足的情况下,训练损失紧密跟踪相应的泛化误差,如图 5a 和 5b 所示,因为训练数据足以准确估计真实的数据分布。对训练损失的分析也适用于泛化误差。早期和晚期融合网络在收敛时都实现了比单模态网络(灰色虚线)更低的泛化误差。

图片图 5. 过度参数化和参数化不足的两层早期和晚期融合线性网络。

在过度参数化的情况下,与有效参数的数量(线性网络的输入维度)相比,样本数量不足。如图 5c 所示,过参数化早期融合线性网络在一个过渡阶段学习两种模态。正如理论预测的那样,泛化误差在过渡阶段减小,之后增大。如果采用提前停止,我们将获得一个从两种模态中学习并且不会显着过度拟合的模型。该模型比单模态模型具有更低的泛化误差。如图 5d 所示,过度参数化的后期融合线性网络首先学习学习速度更快的模态,并在单模态阶段(当训练损失趋于稳定但泛化误差增加时)过度拟合该模态。因此,过度拟合是一种可以将瞬态单模态阶段转化为泛化缺陷和永久单模态偏差的机制

7. 实验结果

作者通过数值模拟验证了理论分析,主要进行了以下实验:

  1. 单模态偏差的显著性:对比早期融合和晚期融合网络的训练过程,发现晚期融合网络在训练初期经历了长时间的单模态阶段,而早期融合网络能够较早地利用所有模态。
  2. 单模态阶段的持续时间:通过调整数据统计(如输入模态之间的相关性),作者验证了强相关性和深融合层延长了单模态阶段。
  3. 泛化能力的影响:在过参数化条件下,长时间的单模态阶段导致了泛化能力的下降,并可能产生永久的单模态偏差。

图片

这些实验结果表明,网络架构和数据统计对单模态偏差的影响较大,且延长的单模态阶段会影响网络的泛化能力。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值