Meta-Transformer

Meta-Transformer是一种能编码12种不同模态数据的框架,通过使用预训练的TransformerEncoder在无配对数据情况下进行多模态感知。它由统一tokenizer、模态共享Encoder和任务特定头组成,展示了在图像、文本、点云等12种模态上的出色性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Meta-Transformer 是一个能够编码12种模态的数据的框架,它使用冻结权重的 Encoder,在没有任何配对多模态训练数据的情况下进行多模态感知。

Meta-Transformer 是一个能够编码12种模态的数据的框架,它使用冻结权重的 Encoder,在没有任何配对多模态训练数据的情况下进行多模态感知。在 Meta-Transformer 中,来自不同模态的原始输入数据被映射到共享的 token space 中。然后,一个具有冻结参数的 Transformer Encoder 来提取输入数据的高级语义特征。

Meta-Transformer 由3个主要组件组成:统一的数据 tokenizer、模态共享的 Transformer Encoder 和特定于下游任务的 head,Meta-Transformer 是第一个在具有未配对数据的 12 种模态中执行统一学习的框架。

Meta-Transformer:用一个 Transformer 模型去编码12类模态

论文名称:Meta-Transformer: A Unified Framework for Multimodal Learning

论文地址:

http:/arxiv.org/pdf/2307.10802.pdf

项目主页:

http://kxgong.github.io/meta_transformer/

代码地址:

http://github.com/invictus717/MetaTransformer

处理多种模态的统一的模型

人脑,被视为神经网络模型灵感来源的 "神经网络 ",可以同时处理来自视觉、听觉和触觉等各种感官输入的信息。此外,一个来源的知识可以帮助理解另一个来源的知识。然而,在深度学习中,设计一个能够处理多种数据格式的统一网络并非易事,因为模态之间存在巨大的差距。

每种模态的数据都有独特的数据模式,因此我们在在一个模态上训练的模型也就很难适应于另一种模态。比如图像模态的数据像素比较密集,因此作者认为图片信息有比较多的信息冗余,但是自然语言的信息就不是这样的情况。点云在 3D 空间中具有稀疏分布,这使得它们更容易受到噪声,且难以表征。音频谱图是时变的非平稳数据模式,由频域波的组合组成。视频数据包含一系列图像帧。图数据将实体表示为节点,关系表示为图中的边,建模实体之间的复杂、多对多的关系。

由于各种数据模式固有的实质性差异,通常的做法是利用不同的网络架构分别编码每个模态。因此,设计一个能够利用模态共享参数空间来编码多种数据模态的统一框架仍然是一个重大挑战课题。

有一些多模态的框架比如 VLMO[1],OFA[2],和 BEiT-3[3]通过对配对数据的大规模多模态预训练,使用一个模型理解多模态的输入数据,但是它们更侧重于视觉和语言,无法跨模态共享整个编码器。

由于 Transformer 模型在 NLP,2D 视觉,3D 视觉和音频信息处理中的成功,激励研究人员探索这个多功能模型的通用性,是否可以打造一个能够统一多种模式的基础模型,最终在所有模式中实现人类水平的感知能力。

Meta-Transformer 探索了 Transformer 架构处理12种模态的潜力,包括图像 (images)、自然语言 (natural language)、点云 (point cloud)、音频谱图 (audio spectrogram)、视频 (video)、红外 (infrared)、高光谱 (hyperspectral)、X射线 (X-Ray)、IMU、表格 (tabular)、图 (graph) 和时间序列 (time-series) 数据,如图1所示。

图1:Meta-Transformer 是第一个使用一套权重来一起编码12种模态数据的模型

Meta-Transformer 是第一个使用一套参数来同时编码来自12个模态数据的框架。Meta-Transformer 主要由3部分组成:模态专家 (modality-speci

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值