AAAI—24—Main—paper(关于Multi—Modal的全部文章摘要)

我们生活在一个由多种模态(Multimodal)信息构成的世界,包括视觉信息、听觉信息、文本信息、嗅觉信息等等,当研究的问题或者数据集包含多种这样的模态信息时我们称之为多模态学习

多模态机器学习旨在处理学习(视觉,听觉,语言等)不同模态融合交织的信息。

下游任务

(1)视觉问答

1.视觉问答(visual question answering, VQA). 给予视觉输入(图像或视频), VQA代表了正确提供一个问题的答案的任务。它通常被认为是一项分类任务, 因为模型会从一个选择池中预测出最合适的答案。

2.视觉推理和组合式问答(visual reasoning and compositional question answering, ** GQA** ). GQA是VQA的升级版, 旨在推进自然场景的视觉推理研究 其数据集中的图像、问题和答案具有匹配的语义表示. 这种结构化表示的好处是答案的分布可以更加均匀, 我们可以从更多的维度分析模型的性能.

3.自然语言视觉推理(natural language for visual reasoning, NLVR): NLVR任务的输入是两张图像和一个文本描述, 输出是图像和文本描述之间的对应关系是否一致(即真、伪两个标签).

4.视觉蕴涵(visual entailment, VE): 在视觉蕴含任务中, 图像作为前提, 文本作为假设, 目的是判断前提是否能推理出假设, 即预测视觉信息是否在语义上包含了文本信息.

5.视觉常识推理(visual commonsense reasoning, VCR): VCR类似于VQA, 但相比于VQA, 模型需要在选择出一个正确回答之后, 还需要提供一个证明其答案的理由.

6.看图识物(grounding referring expressions, GRE): GRE的任务是给定一个文本参考, 对一个图像区域进行定位. 该模型可以为每个区域输出一个分数, 其中具有最高分数的区域被定位用作预测区域。

(2)检索任务

视觉-语言检索(vision-language retrieval, VLR). VLR涉及对视觉(图像或视频)和语言的理解, 以及适当的匹配策略。 它包括两个子任务: 从视觉到文本和从文本到视觉的检索, 其中视觉到文本检索是根据视觉从更大的描述库中获取最重要的相关文本描述, 反之亦然. 常见视觉语言预训练模型对应检索型下游任务如表4所示, 包括视觉-语言检索和零样本(zero-shot)的视觉-语言检索.

(3)生成任务

视觉描述(visual captioning, VC). VC旨在为给定的视觉(图像或视频)输入生成语义和句法上合适的文本描述. 大规模新物体描述(novel object captioning at scale, NoCaps): NoCaps扩展了VC任务, 以测试模型描述来自Open Images数据集的新物体的能力, 这些物体都未曾在训练语料库中出现过. 视觉对话(visual dialogue, VD): VD的任务形式是给定一个图像(或视频)、一个对话历史记录和一个用语言描述的问题, 并让模型为问题生成一个答案.

多模态情感分析(multi-modal sentiment analysis, MSA)旨在通过利用多模态信号(如视觉、语言等)来检测其中的情感. 多模态机器翻译(multi-modal machine translation, MMT): 多模态机器翻译是一项包含翻译和文本生成的双重任务, 将文本从一种语言翻译成另一种语言, 并加入来自其他模态的额外信息, 即图像.

视觉语言导航任务(vision-language navigation, VLN)是让智能体跟着自然语言指令进行导航, 这个任务需要同时理解自然语言指令与视角中可以看见的图像信息, 然后在环境中对自身所处状态做出对应的动作, 最终达到目标位置.

光学字符识别(optical character recognition, OCR): OCR一般是指检测和识别图像中的文本信息, 它包括两个步骤: 文字检测(类似于回归任务)和文字识别(类似于分类任务). 此外, 还有一些与视频相关的下游任务, 用于评估视频-文本预训练模型, 包括动作分类(AC)、动作分割(AS)和动作步骤定位(ASL).

1.MM-Point: Multi-View Information-Enhanced Multi-Modal Self-Supervised 3D Point Cloud Understanding

MM-Point:多视图信息增强的多模态自监督 3D 点云理解 在感知中,集成多种感官信息,将视觉信息从 2D 视图映射到 3D 物体,这有利于 3D 环境中的理解。但对于从不同角度渲染的单个2D视图而言,只能提供有限的部分信息。多视图2D信息的丰富性和价值可以为3D对象提供优越的自监督信号。在本文 中,我们提出了一种新颖的自监督点云表示学习方法MM-Point,该方法由模态内和模态间相似性目标驱动。 MM-Point的核心在于3D对象与多个2D视图同时进行多模态交互和传输。为了更有效地同时执行基于对比学习的 2D 多视图信息的一致跨模态目标,我们进一步提出了 Multi-MLP 和 Multi-level Augmentation 策略。通过精心设计的变换策略,我们进一步学习2D多视图中的多级不变性。 MM-Point 在各种下游任务中展示了最先进的 (SOTA)性能。例如,它在合成数据集 ModelNet40 上实现了 92.4% 的峰值准确率,在现实数据集 ScanObjectNN 上实现了 87.8% 的最高准确率,与完全监督的方法相当。此外,我们还展示了其在少镜头分类、3D 零件分割和 3D 语义分割等任务中的有效性。

2.NuScenes-QA: A Multi-Modal Visual Question Answering Benchmark for Autonomous Driving Scenario

我们在自动驾驶背景下引入了一种新的视觉问答(VQA)任务,旨在根据街景线索回答自然语言问题。与传统的VQA任务相比,自动驾驶场景下的VQA提出了更多的挑战。首先,原始视觉数据是多模态的,包括相机和激光雷达分别捕获的图像和点云。其次,由于数据采集是连续的、实时的,所以数据是多帧的。第三,户外场景呈现动态前景和静态背景。现有的VQA基准测试不能充分解决这些复杂性。为了弥补这一差距,我们提出了NuScenes-QA,这是自动驾驶场景中VQA的第一个基准,包含34K视觉场景和460K问答对。具体来说,我们利用现有的3D检测注释来手动生成场景图和设计问题模板。随后,基于这些模板以编程方式生成问答对。综合统计证明,我们的NuScenes-QA是一个具有多种问题格式的平衡的大规模基准。在此基础上,我们开发了一系列采用先进3D检测和VQA技术的基线。我们大量的实验突出了这项新任务带来的挑战。代码和数据集可在https://github.com/qiantianwen/NuScenes-QA上获得。

3.CARAT: Contrastive Feature Reconstruction and Aggregation for Multi-Modal Multi-Label Emotion Recognition

多模态多标签情感识别的对比特征重构与聚合

多模态多标签情感识别(Multi-modal multi-label emotion recognition,MMER)是从多种模态中识别相关情感的方法。MMER面临的挑战是如何从异构数据中有效地捕获多个标签的区别性特征。近年来的研究主要致力于探索各种融合策略,以将多模态信息整合为所有标签的统一表示。然而,这样的学习方案不仅忽略了每个模态的特异性,而且不能捕获不同标签的个体区别特征。此外,标签和模态的依赖性不能被有效地建模。针对这些问题,这篇论文为MMER任务提出了一种动特征重构和聚合(ContrAstive feature Reconstruction and AggregaTion ,简称CARAT)。具体地说,我们设计了一种基于重构的融合机制,通过对比学习模态分离和标签特定的特征,更好地建模细粒度的模态-标签依赖性。为了进一步挖掘模态互补性,我们引入了一种基于shuffle的聚合策略来丰富标签间的共现协作。在两个基准数据集CMU-MOSEI和M3 ED上的大量实验表明,CARAT方法优于最先进的方法。代码可在https://github.com/chengzju/CARAT上获得。

4.FedDAT: An Approach for Foundation Model Finetuning in Multi-Modal Heterogeneous Federated Learning

FedDAT:一种用于多模态异构联邦学习中基础模型微调的方法

引出背景:基础模型发展得很迅速,但是由于不同的法律法规,收集基础模型的训练数据还是具有一定的难度和挑战性 通过联邦学习,可以在各个客户端协作训练神经网络,而不需要集中本地数据。 联邦学习方法:PEFT Parameter-efficient Finetuning来减轻客户端的计算负担和通信开销 新出现的问题:以往的研究大多集中在单一模态上,而忽略了跨客户端的数据异构性的存在,为了解决这个新出现的问题,这篇论文提出了一个新的框架——联邦双适配器教师FDAT Federated Dual-Aadapter Teacher(FedDAT) 双适配器教师DAT通过正则化客户端本地更新和应用互相知识蒸馏来解决数据异构性问题 经过实验证明,FedDAT的性能优于PEFT 贡献 提出的方法FedDAT在包含多种视觉-语言(VL)任务和数据异质性的四个多模态基准上取得了最先进的成果。我们的贡献可以总结如下: • 我们提出了一种新的方法FedDAT,用于多模态异构联邦学习(FL),这是第一个解决视觉-语言任务中基础模型分布式参数高效微调(PEFT)的FL框架。 • 我们在四个包含各种视觉-语言任务的异构FL基准上进行了全面的实验。结果表明,FedDAT达到了最先进的成果,显示出比现有的PEFT方法更好的收敛速度和可扩展性。

多模态客户数据集: 首次分析了多模态客户数据集的情况,并进行对比。然而,视觉数据和语言数据是由独立的网络处理的,即没有涉及视觉-语言基础模型。在这项工作中,我们专注于在FL中对大规模视觉-语言模型进行参数高效微调,并解决视觉和/或语言模态中的数据异质性问题

5.COMMA: Co-articulated Multi-Modal Learning

COMMA通过联合生成视觉和语言提示以及减少知识遗忘,在多个代表性任务中表现出卓越的性能。它的设计增强了提示生成的有效性,提升了新类、新

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值