CMU联合DeepMind发布”高质量“通用多模态表征框架HighMMT

image.png

:::

论文链接:https://arxiv.org/abs/2203.01311
代码链接:https://github.com/pliang279/HighMMT

本文介绍一篇多模态融合领域的新工作,该文来自卡内基梅隆大学和Deep Mind。多模态表征学习的关键是发现不同模态数据源中的信息对应关系,并进行高效的整合。目前的方法已经取得了一定的进步,相比之前方法着重于对单个模态特定的架构设计,现有的很多优秀的工作已经开始向设计和探索更为通用的多模态架构迈进,在这一过程中,仍然存在很多问题,例如这些通用模型仍然会限制在语言、视觉和音频中的一小部分模态空间,这抑制了模型的通用性和泛化性。

因此,本文首先提出了一种高模态的概念(High-Modality,即大量不同的模态),并提出了一个通用的多模态融合模型,该模型具有两个特点:(1)设计了一种共享参数的多任务学习模式,提升了模型的可扩展性,(2)通过跨模态的迁移学习可以帮助模型实现跨模态和跨任务之间的信息共享。这提升了模型在高模态设定下对于下游应用场景的泛化能力。实验表明,本文的模型可以泛化来自不同研究领域中的文本、图像、视频、音频、时间序列数据、传感器数据和表格数据,打通了多种任务之间的信息壁垒。

1. 引言

现有的多模态融合领域中,主要出现的工作大体上是对两种或者三种模态的信息构建通用模型,而且通常是在语言、视觉和音频空间中,缺乏在更多种模态信息融合的探索,为了构建更为统一的通用多模态模型,目前主要面临以下两个挑战:

  1. 模型的可扩展性,由于不同模态数据本身的异质性,会导致模型的参数量不断增加而变得臃肿。

  2. 可观察性,由于不同模态和不同任务之间很难做到统一表征和建模,因此模型的泛化性能会大打折扣。

为了应对上述挑战,本文作者首先设定了一种高模态通用模型的问题场景,即首先通过对文本、图像、视频、音频、时间序列数据、传感器数据和表格数据等模态的数据进行编码,随后在多种模态任务上进行任务迁移,例如情感计算、多媒体分析、机器人决策和医疗健康诊断等任务。

image.png

:::

为了实现可以同时完成多模态的多任务学习以及跨模态的迁移学习,本文作者提出了一个通用的多模态多任务Transformer网络(multimodal multitask transformer),该模型可以同时对文本、图像和音频数据进行编码,并且在参数共享的模式下,泛化到更多的任务上(跨越了10个模态,15种预测任务和5个不同的研究领域),实现了一定程度上的多模态通用性。此外,该模型还可以在数据资源较为充足的模态上进行预训练,然后迁移到资源较为匮乏的模态和任务上,实现了跨模态和跨任务的信息传递,提高了系统的整体性能。

2. 本文方法

本文提出的高模态多任务Transformer网络(High-Modality Mutimodal Transformer,HIGHMMT)的结构呈现层次化的设计模式,如下图所示,模型首先将不同模态的数据按照一个统一的标准进行序列化送入模型,先通过一系列特定模态的嵌入层来捕获每个模态数据中的独特信息。随后将这些信息输入到共享参数的单模态编码器中,并通过多任务学习来训练其后的共享多模态层来学习模态和任务无关的表征,最后我们将这些任务无关的多模态表征送入到多个任务特定的分类器中得到不同任务的结果,这种设计很大程度上统一了不同模态数据的特征表示差距,同时也进行了跨模态的信息交互,提高了模型的泛化性,也进一步提高了模型的通用性,下面将详细介绍其中每一个层次的操作细节。

image.png

:::

2.1 模型标准化输入序列

上面提到,本文的模型输入模态有多种,包括来自不同研究领域的文本、图像、视频、音频、时间序列数据、传感器数据和表格数据等,因此设计模型的第一步就是构建一个统一的输入标准,作者将每一个模态都视为一个嵌入序列,例如将图像输入划分为3x3或4x4的图像patch序列,对于音频和时间序列数据,仍然保留其原有的特征向量序列,而对于其他特殊模态,例如表格和图表等数据,作者将表格或图表中的每一个元素视为序列中的一个元素。经过标准化的输入序列表示为 X m ∈ R n × t m × d m \mathbf{X}_{m} \in \mathbb{R}^{n \times t_{m} \times d_{m}} XmRn×tm×dm,其中 n n n 为批次大小, t m t_m tm 是模态或任务特定的输入序列长度, d m d_m dm 是特征维度。

2.2 模态特定嵌入空间

作为从原始模态输入到高维特征空间的第一步映射,模态特定的嵌入层需要考虑到对多种模态和多种任务的自适应,例如对于每个不同的模态 m ∈ M m \in M mM,作者定义了一种统一的one-hot嵌入层 e m ∈ R ∣ M ∣ \mathbf{e}_{m} \in \mathbb{R}^{|M|} emRM,这样定义的原因是该嵌入层可以自适应多种不同任务的通用模式,以实现信息共享。例如视频分类任务(video classification)中的图像序列的模态嵌入需要和视觉问答任务(video question-answering)的模态嵌入共享。此外为了提高嵌入层的时序依赖敏感度,作者引入了特定于不同模态的傅里叶特征位置编码机制 p m ∈ R t m × d ˉ p m \mathbf{p}_{m} \in \mathbb{R}^{t_{m} \times \bar{d}_{p m}} pmRtm×dˉpm,其中 d p m d_{pm} dpm 是位置编码的维度,用来捕获每个模态的时间和位置信息。

2.3 模态和任务无关的单一编码器和跨模态编码器

在得到模态特定的嵌入编码和位置编码之后,作者将其输入到共享参数的单模态编码器中,这些编码器由一系列Transformer的感知机块叠加构成,需要注意的一点是,本文的单一编码器与其他工作中使用的单一编码器不同,之前的单一编码器可以在单一模态上的输入得到非常优越的性能,例如ViT-BERT[1]和PolyViT[2],这些编码器可以先在文本数据上进行预训练,随后在其他模态数据上进行微调,但是这种方式与本文构建通用跨模态模型的初衷不同,作者希望编码器可以同时接收多种模态的输入并生成统一的嵌入特征,方便后续的多任务和迁移学习训练,本文编码器与之前工作编码器的差异如下图所示。

image.png

:::

基于这种设计,使得无论输入的模态如何变化,模型都可以实现统一架构下的通用特征表示学习。随后这些通用特征被输入到共享参数的多模态层中,多模态层由多层的跨模态Transformer块(Crossmodal Transformer block,CT)构成,例如我们给定两个单编码器特征表示 z 1 \mathbf{z}_{1} z1 z 2 \mathbf{z}_{2} z2,CT块会通过自注意力机制自动学习模态1附着在模态2上的注意力权重,同时也进行反向的注意力提取,这种方式可以使一种模态上的序列元素发现另一模态上的对应关系,进而实现不同模态之间的信息交互,并得到最终的多模态表示:

z m m = [ z 1 → 2 , z 2 → 1 ] = [ C T ( z 1 , z 2 ) , C T ( z 2 , z 1 ) ] \mathbf{z}_{\mathrm{mm}}=\left[\mathbf{z}_{1 \rightarrow 2}, \mathbf{z}_{2 \rightarrow 1}\right]=\left[\mathrm{CT}\left(\mathbf{z}_{1}, \mathbf{z}_{2}\right), \mathrm{CT}\left(\mathbf{z}_{2}, \mathbf{z}_{1}\right)\right] zmm=[z12,z21]=[CT(z1,z2),CT(z2,z1)]

2.4 任务特定的分类器

在得到跨模态的通用表征 z m m \mathbf{z}_{\mathrm{mm}} zmm 之后,作者对每个不同的任务都部署了任务特定的分类器,其实现都为一个简单的线性分类层,随后通过多任务学习来进行联合优化。

3.实验

在实验部分,作者重点评估了HIGHMMT的多任务、迁移和泛化能力。实验主要在MultiBench[3]基准上进行,MultiBench是一个被广泛使用的公共多模态数据集评估平台,其中涵盖了15个真实世界数据集、10个模态、20个预测任务和6个研究领域。作者在这些数据集和任务上设计了大中小三个多任务实验设置,如下表所示,其涵盖了多种模态的数据,如图像、视频、音频、文本、时间序列、各种机器人传感器和表格数据,也包括了多种多样的预测任务,例如多模态融合和多模态检索,涉及到多个领域,例如情感计算、医疗保健、多媒体、机器人和人机交互等。

image.png

:::

作者首先对单个HIGHMMT模型的参数量和性能进行了评估,评估结果如下图所示,下图主要展示了模型的性能和效率之间的整体权衡,其中蓝色点表示在MultiBench基准上的跨多个数据集的任务的所有可能组合以及模型在它们上的性能。其中浅绿色的点为单一HIGHMMT的性能展示,由于其共享单一模态编码器的设计,在与其他只在特定模态的编码器方法中已经有非常大的参数效率提升。当HIGHMMT以多任务方式进行训练时(深绿色点),任务和任务之间的编码器层形成了信息互通,进一步提高了模型的性能。

image.png

:::

随后作者将HIGHMMT与MultiBench基准上的其他SOTA方法进行了对比,尤其是对比的方法往往是在单个特定任务上进行训练得到的,但是实验结果表明HIGHMMT可以得到更优越的结果,特别是在机器人和人机交互领域,详细的对比结果如下表所示。此外,从该实验中我们可以看到,HIGHMMT在多个任务上的总参数量相对而言是轻量的,而且这种轻量随着任务数量的增加而表现的越来越明显,因此HIGHMMT可以很容易的扩展到高模态场景中,同时也能保证参数量在一个可接受的范围内。

image.png

:::

4.总结

本文在多模态表征的基础上提出了一种新的高模态场景,即强调模型在大量不同的模态和不同任务之间的通用性和泛化性。为此,作者在10个模态、15个预测任务和5个研究领域中展开了实验,训练了一个多模态多任务Transformer网络,该网络可以在减少模型总参数量的前提下,实现一定程度上的多模态通用性能。此外作者还探索了一种新的多任务迁移模式,即先在数据资源较为充足的源模态上进行预训练,随后迁移到数据样本缺乏的其他模态和任务上,实现跨模态的信息传递,这对低资源的目标任务有很大的帮助。总体来说,本文工作在多模态通用架构的设计上进行了新的尝试,并且也取得了一定的成果,同时作者团队也将代码和实验基准一一开源,有利于社区的进一步研究。

参考

[1] Qing Li, Boqing Gong, Yin Cui, Dan Kondratyuk, Xianzhi Du, Ming-Hsuan Yang, and Matthew Brown. Towards a unified foundation model: Jointly pre-training transformers on unpaired images and text. arXiv preprint arXiv:2112.07074, 2021.

[2] Valerii Likhosherstov, Mostafa Dehghani, Anurag Arnab, Krzysztof Marcin Choromanski, Mario Lucic, Yi Tay, and Adrian Weller. Polyvit: Co-training vision transformers on images, videos and audio, 2022.

[3] Paul Pu Liang, Yiwei Lyu, Xiang Fan, Zetian Wu, Yun Cheng, Jason Wu, Leslie Yufan Chen, Peter Wu, Michelle A Lee, Yuke Zhu, et al. Multibench: Multiscale benchmarks for multimodal representation learning. In NeurIPS Datasets and Benchmarks Track, 2021b.

-The End-

关于我“门”

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务、将门-TechBeat技术社区(https://datayi.cn/w/GR4vQ82o)以及将门创投基金。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值