Meta-Transformer: A Unified Framework for Multimodal Learning——多模态学习的统一框架

最近看了一篇用于多模态领域的统一框架Meta-Transformer的统一框架。主要内容包括:

  1. 背景与挑战

    • 多模态学习旨在处理和关联来自多种模态的信息,但由于模态间的固有差异,设计统一网络具有挑战性。

    • 现有方法通常需要配对的多模态数据,且主要集中在视觉和语言任务上。

  2. Meta-Transformer框架

    • 提出了一种利用冻结编码器进行多模态感知的新框架,无需配对的多模态训练数据。

    • 框架包括三个主要组件:统一的数据标记器、模态共享编码器和任务特定头部。

    • 通过将不同模态的数据映射到共享标记空间,使用冻结参数的编码器提取高级语义特征。

  3. 实验与结果

    • 在12种模态(包括文本、图像、点云、音频、视频、红外、高光谱、X射线、IMU、表格、图和时间序列数据)上进行了广泛的实验。

    • 结果表明,Meta-Transformer在多种任务中表现出色,优于现有最先进的方法。

    • 具体任务包括文本理解、图像理解、点云理解、音频识别、视频理解、时间序列预测、表格数据分析、图数据理解和IMU识别。

  4. 贡献与未来工作

    • 提出了一个新颖的框架,使统一编码器能够使用相同参数集同时从多种模态中提取表示。

    • 全面检查了变换器组件在处理各种模态中的功能,提供了宝贵的见解。

    • 实验验证了Meta-Transformer在统一多模态学习中的进一步潜力。

    • 未来的工作包括改进模态无关生成模型和探索更多应用领域。

Meta-Transformer展示了使用变换器架构开发统一多模态智能的潜力,为多模态学习提供了新的方向和方法。这里是自己的论文阅读记录,感兴趣的话可以参考一下,如果需要阅读原文的话可以看这里,如下所示:

官方项目在这里,如下所示:

 

 图1:统一多模态学习。Meta-Transformer利用相同的骨干网络对自然语言、图像、点云、音频、视频、红外、高光谱、X射线、时间序列、表格、惯性测量单元(IMU)和图数据进行编码。它揭示了变换器架构在统一多模态智能中的潜力

摘要

多模态学习旨在构建能够处理和关联来自多种模态信息的模型。尽管在这一领域已经取得了多年的发展,但由于不同模态之间的固有差异,设计一个能够处理各种模态(如自然语言、2D图像、3D点云、音频、视频、时间序列、表格数据)的统一网络仍然具有挑战性。在这项工作中,我们提出了一种名为Meta-Transformer的框架,该框架利用一个冻结的编码器来执行多模态感知,而无需任何配对的多模态训练数据。在Meta-Transformer中,来自各种模态的原始输入数据被映射到一个共享的标记空间,允许后续的冻结参数编码器提取输入数据的高级语义特征。Meta-Transformer由三个主要组件组成:统一的数据标记器、模态共享编码器和用于下游任务的任务特定头部。Meta-Transformer是第一个能够在无配对数据的情况下跨12种模态进行统一学习的框架。在不同基准上的实验表明,Meta-Transformer可以处理包括基本感知(文本、图像、点云、音频、视频)、实际应用(X射线、红外、高光谱和IMU)以及数据挖掘(图、表格和时间序列)在内的广泛任务。Meta-Transformer预示着使用变换器开发统一多模态智能的光明未来。

1 引言

人类大脑被认为是神经网络模型的灵感来源,它能够同时处理来自各种感官输入的信息,例如视觉、听觉和触觉信号。此外,一个来源的知识可以促进对另一个来源的理解。然而,在深度学习中,设计一个能够处理广泛数据格式的统一网络是一项艰巨的任务,这是由于模态之间的显著差异[1-3]。

每种数据模态都呈现出独特的数据模式,这使得难以将针对一种模态训练的模型适应到另一种模态。例如,图像由于密集的像素而表现出高度的信息冗余,而自然语言则不然[4]。另一方面,点云在3D空间中分布稀疏,使其更容易受到噪声影响,并且难以表示[5]。音频频谱图是随时间变化的非平稳数据模式,由跨频率域的波组合而成[6]。视频数据包含一系列图像帧,使其能够捕捉空间信息和时间动态[7]。图数据将实体表示为节点,关系表示为图中的边,建模实体之间的复杂多对多关系[8]。由于各种数据模态固有的显著差异,通常的做法是使用不同的网络架构分别对每种模态进行编码。例如,Point Transformer[9]利用向量级位置注意力从3D坐标中提取结构信息,但它无法编码图像、自然语言段落或音频频谱图切片。因此,设计一个能够利用模态共享参数空间来编码多种数据模态的统一框架仍然是一个重大挑战。最近,统一框架的发展,如VLMO[2]、OFA[10]和BEiT-3[3],通过大规模多模态预训练提高了网络的多模态理解能力,但它们更侧重于视觉和语言,并且无法跨模态共享整个编码器。

Vaswani等人于2017年提出的变换器架构和注意力机制[11]在自然语言处理(NLP)中取得了显著进展,对深度学习产生了重大影响[11-16]。这些进展在增强不同模态的感知能力方面发挥了重要作用,例如2D视觉(包括ViT[17,18]和Swin Transformer[19])、3D视觉(如Point Transformer[9]和Point-ViT[20,21])和音频信号处理(AST[6])等。这些工作展示了基于变换器架构的多功能性,激发了研究人员探索是否有可能开发能够统一多种模态的基础模型,最终实现跨所有模态的人类级感知。

表1:Meta-Transformer与相关工作在感知任务上的比较。

方法模态共享参数无配对数据
Transformer[11]
ViT[13], Swin Transformer[19], MAE[4]
Point Transformer[9], PCT[22], Point ViT[21]
AST[6], SSAST[23]
CLIP[24], Flamingo[25], VLMO[2], OFA[10]
BEiT-3[3]部分层
ImageBind[26]
Meta-Transformer[ours]整个骨干

在本文中,我们探讨了变换器架构处理12种模态(包括图像、自然语言、点云、音频频谱图、视频、红外、高光谱、X射线、IMU、表格、图和时间序列数据)的潜力,如图1所示。我们讨论了使用变换器对每种模态进行学习的过程,并解决了将它们统一到一个框架中的挑战。因此,我们提出了一种名为Meta-Transformer的新型统一框架,用于多模态学习。Meta-Transformer是第一个使用相同参数集同时编码十多种模态数据的框架,为多模态学习提供了更紧密的方法(如表1所示)。Meta-Transformer包含三个简单而有效的组件:数据到序列的标记器(§3.2)、模态共享编码器(§3.3)和下游任务的特定头部。具体来说,Meta-Transformer首先将多模态数据转换为共享公共流形空间的标记序列。然后,一个冻结参数的模态共享编码器提取表示,这些表示通过仅更新下游任务头部和轻量级标记器的参数进一步适应各个任务。最后,通过这个简单的框架可以有效地学习任务特定和模态通用的表示。

我们在12种模态的各种基准上进行了广泛的实验。通过仅使用LAION-2B[24]数据集的图像进行预训练,Meta-Transformer在处理多种模态数据时表现出色,在不同的多模态学习任务中持续优于最先进的方法。更详细的实验设置可以在§D中找到。

总之,我们的贡献可以总结如下:

  • 对于多模态研究,我们提出了一种新颖的框架Meta-Transformer,该框架使统一编码器能够使用相同参数集同时从多种模态中提取表示。

  • 对于多模态网络设计,我们全面检查了变换器组件(如嵌入、标记化和编码器)在处理各种模态中的功能。Meta-Transformer提供了宝贵的见解,并激发了开发能够统一所有模态的模态无关框架的新方向。

  • 实验上,Meta-Transformer在涉及12种模态的各种数据集上表现出色,验证了Meta-Transformer在统一多模态学习中的进一步潜力。

2 相关工作

单模态感知

各种神经网络的发展促进了机器智能的感知[27,28,29,11]。

多层感知器用于模式识别。 最初,支持向量机(SVM)和多层感知器(MLP)被应用于文本[30]、图像[31]、点云[32]和音频[33]分类。这些创新工作证明了将人工智能引入模式识别的可行性。

递归和卷积神经网络。 Hopfield网络[34]是递归网络的原始形式,随后LSTM[35]和GRU[36]进一步探索了RNN在序列建模和NLP任务中的优势[37,38,39],这也广泛应用于音频合成[40]。同时,包括LeNet[41]、AlexNet[42]、VGG[43]、GoogleNet[44]和ResNet[29]在内的CNN在图像识别中的成功极大地促进了CNN在其他领域的应用,如文本分类[45,46]、点云理解[47,48,49]和语音分类[50]。

变换器。 最近,变换器架构[11]已被应用于各种任务,如NLP中的文本理解[51]和生成[52],图像中的分类[13]、检测[53]和分割[15],点云理解[22,9]和音频识别[6,23]。

然而,与CNN和RNN的应用类似,这些网络根据模态的不同属性进行了修改。没有一种通用的架构用于模态无关的学习。更重要的是,不同模态的信息可以互补[54,55,56],设计一个能够编码不同模态数据并通过共享参数空间桥接这些复杂表示的框架是重要的。

基于变换器的多模态感知

变换器在感知方面的优势在于其全局感受野和相似性建模,这显著促进了多模态感知的发展。MCAN[57]提出了视觉和语言之间的深度模块化共同注意力网络,通过简洁地最大化交叉注意力来执行跨模态对齐。然后,利用交叉注意力机制来桥接不同模态成为共识[2,1,10,3]。随着预训练-微调范式的成功,更多的研究集中在如何通过预训练有效地对齐跨模态提取的表示。VL-BERT[58]通过MLM范式开创了用于通用视觉-语言理解的模态对齐表示。然后,Oscar[59]描述了视觉和文本内容中的对象语义。Vinvl[60]、Simvlm[1]、VLMO[2]、ALBEF[61]和Florence[62]等框架进一步探索了视觉-语言模态之间联合表示在语义一致性方面的优势。

多模态模型也被用于少样本学习[25]、序列到序列学习[10]和对比学习[63]。BEiT-v3[3]提出将图像视为一种外语,通过更细粒度的跨模态掩码重建过程共享部分参数。MoMo[64]进一步探索了使用相同编码器进行图像和文本训练策略和目标函数。

尽管取得了这些进展,但由于模态之间的差异,设计统一的多模态网络仍然存在重大障碍。此外,大多数研究集中在视觉和语言任务上,可能无法直接解决3D点云理解、音频识别或其他模态的挑战。Flamingo模型[25]代表了一个强大的少样本学习器,但其向点云的迁移能力有限,利用一种模态的先验知识来促进其他模态仍然是一个挑战。换句话说,现有的多模态方法在更多模态上的扩展性有限,尽管它们需要昂贵的训练成本。解决这些差异依赖于使用相同参数集桥接不同模态,类似于桥梁连接多个河岸。

3 Meta-Transformer

在本节中,我们将详细描述提出的框架Meta-Transformer。Meta-Transformer统一了处理不同模态数据的多个管道,并使用共享编码器对文本、图像、点云、音频和其他8种模态进行编码。为了实现这一点,Meta-Transformer由一个数据到序列的标记器将数据投影到共享嵌入空间,一个模态无关的编码器对不同模态的嵌入进行编码,以及用于下游预测的任务特定头部组成,如图2所示。

预备知识

形式上,我们将n种模态的输入空间表示为{X1,X2,...,Xn},而{Y1,Y2,...,Yn}是对应的标签空间。此外,我们假设每种模态存在一个有效的参数空间Θi,其中任何参数θi∈Θi可用于处理该模态的数据xi∈Xi。我们说Meta-Transformer的本质是找到一个共享的θ*,满足:

多模态神经网络可以表示为一个统一的映射函数F:x ∈X→y∈Y,其中x是来自任何模态{X1,X2,...,Xn}的输入数据,y表示网络的预测。设y为真实标签,多模态管道可以表示为:

 图2:Meta-Transformer由数据到序列的标记化、统一特征编码和下游任务学习组成。该框架以文本、图像、点云和音频为例进行了说明

数据到序列的标记化

我们提出了一种新颖的元标记化方案,旨在将各种模态的数据转换为标记嵌入,所有这些都在一个共享的流形空间内。然后,该方法应用于标记化,考虑到模态的实际特征,如图3所示。我们以文本、图像、点云和音频为例。更多细节可以在补充材料中找到。具体来说,我们使用xT、xI、xP和xA分别表示文本、图像、点云和音频频谱图的数据样本。

自然语言。 按照常见做法[51,65],我们使用带有30,000个标记词汇表的WordPiece嵌入[66]。WordPiece将原始单词分割成子词。例如,原始句子:“The supermarket is hosting a sale”,可以通过WordPiece转换为:“_The _super market_is_hosting_a_sale”。在这种情况下,单词“supermarket”被分成两个子词“_super”和“market”,单词“hosting”被分成“_host”和“ing”,而其余单词保持不变,仍然是单个单位。每个子词对应词汇表中的一个唯一标记,然后通过词嵌入层投影到高维特征空间。结果,每个输入文本被转换为一组标记嵌入x∈Rn×D,其中n是标记的数量,D是嵌入的维度。

图像。 为了适应2D图像,我们将图像x∈RH×W×C重塑为一系列扁平化的2D块xP∈RNs×(S2·C),其中(H,W)表示原始图像分辨率,C表示通道数;S是块大小,Ns=(HW/S2)是生成的块数量。然后,使用投影层将嵌入维度投影到D:

注意,我们对红外图像使用相同的操作,但对高光谱图像使用线性投影。此外,我们简单地将2D卷积层替换为3D卷积层进行视频识别。更多细节可以在B.1和B.3中找到。

点云。 为了使用变换器学习3D模式,我们将点云从原始输入空间转换为标记嵌入空间。X={xi}i=1P表示一个包含P个点的点云,其中xi=(pi,fi),pi∈R3表示3D坐标,fi∈Rc是第i个点的特征。通常,fi包含视觉提示,如颜色、视角、法线等。我们使用最远点采样(FPS)操作以固定采样比例(1/4)对原始点云进行代表性骨架采样。然后,我们使用K近邻(KNN)对相邻点进行分组。基于包含局部几何先验的分组集,我们构建邻接矩阵,以进一步揭示3D对象和3D场景的综合结构信息。

图3:数据到序列标记化的示意图3.2。我们提出了包含分组、卷积和变换过程的元方案(a)。然后,(b)-(e)表示在我们的元方案下应用于文本、图像、点云和音频频谱图的构建块

最后,我们从K个子集中聚合结构表示。我们获得点嵌入为:

音频频谱图。 最初,我们使用对数梅尔滤波器组[67]对持续时间为t秒的音频波形进行预处理。然后,我们使用步长为ts的汉明窗在频率fs上分割原始波形,将其分成l=(t/ts)个区间,并将原始波形进一步转换为l维滤波器组。

随后,我们使用相同的块大小S从时间和频率维度将频谱图分割成块。与图像块不同,音频块在频谱图上重叠。按照AST[6]的做法,我们选择将整个频谱图分割成Ns=12[(100t−16)/10]个块,然后将其展平为标记序列。最后,我们总结过程:[(100t−16)/10]个块,然后将其展平为标记序列。最后,我们总结过程:

其中T和F表示时间和频率维度。

统一编码器

在将原始输入转换为标记嵌入空间后,我们利用一个冻结参数的统一变换器编码器对不同模态的标记嵌入序列进行编码。

预训练。 我们使用ViT[13]作为骨干网络,并在LAION-2B数据集上使用对比学习进行预训练,以增强通用标记编码的能力。预训练后,我们冻结骨干网络的参数。此外,对于文本理解,我们使用CLIP[24]的预训练文本标记器将句子分割成子词,并将子词转换为词嵌入。

模态无关学习。 按照常见做法[51,13],我们在标记嵌入序列前添加一个可学习的标记xCLS,xCLS标记的最终隐藏状态(zL0)作为输入序列的摘要表示,通常用于执行识别。

为了增强位置信息,我们将位置嵌入融入到标记嵌入中。回想一下,我们将输入数据标记化为1D嵌入,因此,我们选择标准的可学习1D位置嵌入。此外,我们在图像识别中没有观察到使用更复杂的2D感知位置嵌入的显著性能提升。我们简单地将位置嵌入和内容嵌入通过逐元素加法操作融合,然后将生成的嵌入序列输入到编码器中。

具有深度L的变换器编码器由多个堆叠的多头自注意力(MSA)层和MLP块组成。输入标记嵌入首先输入到MSA层,然后输入到MLP块。然后,(ℓ-1)层MLP块的输出作为ℓ层MSA层的输入。层归一化(LN)附加在每层之前,残差连接应用于每层之后。MLP包含两个线性FC层和一个GELU非线性激活。变换器的公式为:

其中Ex表示提出的标记器的标记嵌入,n表示标记的数量。我们将补丁嵌入和可学习嵌入与位置嵌入Epos相加。

任务特定头部

在获得学习表示后,我们将表示输入到任务特定头部h(·;θh),主要由MLP组成,并根据模态和任务而变化。Meta-Transformer的学习目标可以总结为:

其中f(·)、g(·)和h(·)分别表示标记器、骨干和头部的函数。

4 实验

在本节中,我们在12种模态中的每一种上进行实验。我们展示了Meta-Transformer在多模态感知中的潜力。我们的实验设计总结如表2所示,更多实验细节可以在§C.1中找到。

实验设置

文本理解。 为了评估文本理解,我们使用通用语言理解评估(GLUE)基准[68],该基准包含几个不同的数据集,涵盖了广泛的自然语言理解任务。

图像理解。 1) 分类:我们在ImageNet-1K[69]上进行实验,该数据集包含约130万张图像,分为1000个类别。按照常见做法[70,19,71],基础规模模型训练300个epoch,而大型模型在ImageNet-22K(1420万张图像)上预训练90个epoch,然后在ImageNet-1K上微调20个epoch。2) 目标检测:我们在MS COCO数据集[72]上进行实验,使用Mask R-CNN[73]作为检测器,每个模型训练12个epoch。3) 语义分割:我们在ADE20K[75]上训练分割头部UperNet[74],进行160k次迭代,与之前的基于CNN和变换器的骨干进行公平比较。

红外、X射线和高光谱数据理解。 我们在红外图像、X射线扫描和高光谱数据识别上进行实验,分别使用RegDB[76]、Chest X-Ray[77]和Indian Pine数据集。

点云理解。 1) 分类:为了评估Meta-Transformer在3D对象分类中的性能,我们使用ModelNet-40[78]基准,包含40个类别的CAD模型,9843个训练样本和2468个验证样本。2) 语义分割:为了评估3D点云分割中的性能,我们在S3DIS[79]和ShapeNetPart[80]数据集上评估模型。S3DIS数据集包含6个大型室内区域和13个语义类别,共271个房间。ShapeNetPart数据集包含16个形状类别的16880个对象模型。

音频识别。 对于音频识别,我们使用Speech Commands V2[81]数据集,包含35个常见语音命令的105829个一秒录音。

视频理解。 对于视频理解,我们在UCF101[82]数据集上进行动作识别实验,更多细节在§B.1中展示。

时间序列预测。 对于时间序列预测,我们在ETTh1[83]、Traffic、Weather和Exchange[84]数据集上进行实验。我们使用Autoformer[85]的标记器。

图理解。 我们在PCQM4M-LSC数据集[86]上进行实验,该数据集是一个大规模数据集,包含440万个最多23个重原子的有机分子及其相应的量子力学性质。目标是使用机器学习预测分子性质,在药物发现和材料科学中有大量应用。

表格分析。 我们在UCI仓库的成人数据集和银行营销数据集上进行实验。我们使用TabTransformer[87]的标记器对原始表格数据进行编码。

IMU识别。 为了评估Meta-Transformer理解惯性运动系统的能力,我们在Ego4D[88]数据集上进行IMU传感器分类实验。

表2:不同模态的实验设置总结。我们报告每种模态的任务、数据集和数据规模

网络设置。 我们遵循ViT[13]的默认设置。Meta-Transformer-B16F表示具有基础规模编码器的Meta-Transformer,包含12个变换器块和12个注意力头,图像块大小为16。对于基础规模编码器,嵌入维度为768,MLP的输出维度为3072。'F'和'T'表示编码器参数是冻结的和进一步微调的。

表3:GLUE基准上文本理解实验结果。我们比较了现有先进方法在释义、情感、重复、推理和回答任务中的表现,并报告了预训练设置和性能

自然语言理解结果

表3展示了在GLUE基准上进行文本理解任务的实验结果,比较了BERT[51]、RoBERTa[65]和ChatGPT等各种最先进的方法。比较集中在释义、情感、重复、推理和回答任务上。使用冻结参数在图像上预训练的Meta-Transformer-B16F在情感(SST-2)、释义(MRPC)、重复(QQP)、推理(MNLI)和回答(QNLI)任务中分别达到54.6%、81.1%、66.0%、63.4%和56.3%的分数。微调后,Meta-Transformer-B16T表现出更高的性能,分别在情感、释义、重复、推理和回答任务中达到81.3%、81.8%、78.0%、70.0%和60.3%。尽管Meta-Transformer在GLUE基准上的性能可能不如BERT、RoBERTa或ChatGPT,但它仍然表现出竞争性能、适应性和理解自然语言的潜力。

表4:图像理解实验结果。我们在ImageNet [69]、MSCOCO [72]和ADE20K [75]数据集上进行分类、目标检测和实例分割任务的实验,其中粗体和下划线分别表示最佳和次佳结果

表5:红外和高光谱数据理解实验结果。我们在SYSU-MM01和Indian Pine数据集上进行分类任务的实验。我们报告Rank-1(R@1)、平均精度(mAP)、总体准确率(OA)、平均准确率(AA)和可训练参数数量(Params)

图像理解结果

如表4所示,Meta-Transformer在与Swin Transformer系列[19,107]和Interalmage[96]在图像理解任务上的比较中表现出色。在图像分类方面,借助CLIP[24]文本编码器,Meta-Transformer在零样本分类中表现出色,Meta-Transformer-B16F和Meta-Transformer-L14F分别达到69.3%和75.3%的准确率。同时,当进一步微调预训练参数时,Meta-Transformer可以超越现有先进方法,Meta-Transformer-B16T和Meta-Transformer-L14T分别达到85.4%和88.1%的准确率。后者在ImageNet[69]分类上超越了SwinV2-L/24†(87.6%)和Interalmage-XL††(88.0%)。

表6:点云理解实验结果。我们在ModelNet-40 [78]、S3DIS [79]和ShapeNetPart [80]数据集上进行实验。我们比较了现有先进方法在分类、语义和对象部分分割任务中的表现,并报告了每种方法的预训练模态(Pre-train)和可训练参数数量(Params)

在目标检测和语义分割方面,Meta-Transformer也表现出色,进一步证明了其在图像理解中的通用能力。在目标检测中,Meta-Transformer-B16F和Meta-Transformer-L14F分别达到31.7%和43.5%的AP,而Meta-Transformer-B16T和Meta-Transformer-L14T分别达到46.4%和56.3%的AP。在语义分割中,Meta-Transformer-B16F和Meta-Transformer-L14F的mIoU分别为33.4%和41.2%,而Meta-Transformer-B16T和Meta-Transformer-L14T分别达到51.0%和55.0%。相比之下,SwinV2-L/24†在目标检测(58.8% AP)和语义分割(55.9% mIoU)中均优于Meta-Transformer。Meta-Transformer-L14T模型在语义分割中与Interalmage-XL†表现相似(均为55.0% mIoU),但在目标检测中表现更好(56.3% AP对55.3% AP)。这些结果表明,Meta-Transformer在各种图像理解任务中表现出竞争性能,甚至优于Swin Transformer[19]和Interalmage。

红外、高光谱和X射线数据结果

表4(a)展示了Meta-Transformer和其他先进方法在RegDB数据集[76]上进行红外图像识别的性能比较。Meta-Transformer-B16F表现出竞争结果,Rank-1准确率为73.50%,mAP为65.19%。尽管它可能无法超越顶级方法,但Meta-Transformer证明了其在红外图像识别任务中的简单可迁移性。这些结果表明Meta-Transformer在处理红外图像挑战方面的潜力,并为该领域的发展做出了贡献。

表7:使用Meta-Transformer进行X射线图像识别。我们在Chest X-Ray数据集上进行实验,报告准确率(%)和可训练参数数量

此外,表4(b)展示了Meta-Transformer在Indian Pine数据集上进行高光谱图像识别的性能。SpectralFormer[100]通过补丁级方法取得了令人印象深刻的准确率分数。当完全微调所有参数时,普通视觉变换器也表现良好。Meta-Transformer-B16F在高光谱图像识别中表现出竞争结果,整体准确率较低。然而,Meta-Transformer在可训练参数数量上显著较少(仅0.17M),与其他方法相比。这揭示了将Meta-Transformer应用于遥感、环境监测和矿物勘探的潜在发展方向。对于X射线图像,与处理红外图像类似,我们采用与常见可见图像相同的图像标记器。从表7中,我们可以观察到Meta-Transformer可以达到94.1%的竞争性能。

3D点云理解结果

表6展示了点云理解的实验结果,将Meta-Transformer与其他最先进的方法在ModelNet-40[78]、S3DIS[79]和ShapeNetPart[80]数据集上的性能进行了比较。任务包括分类、语义分割和对象部分分割。当在2D数据上预训练时,Meta-Transformer-B16F表现出竞争性能,在ModelNet-40上达到93.6%的整体准确率,仅使用0.6M可训练参数,与最佳性能模型相当。在S3DIS Area-5数据集上,Meta-Transformer在均值IoU(mIoU)和均值准确率(mAcc)上均优于其他方法,分别为72.3%和83.5%,使用2.3M参数。此外,Meta-Transformer在ShapeNetPart数据集上表现出色,在实例mIoU(mIoUI)和类别mIoU(mIoUC)上均达到最高分数,分别为87.0%和85.2%,使用2.3M参数。总之,Meta-Transformer在点云理解任务中表现出显著优势,与其他最先进方法相比,在更少的可训练参数下表现出色。

音频识别结果

为了公平比较Meta-Transformer与现有音频频谱图系列[23,6]相似规模的模型,我们在音频识别实验中使用Meta-Transformer-B32。

表8:使用Meta-Transformer进行音频理解。我们在Speech Commands V2数据集上进行实验,报告准确率分数和可训练及总参数数量

表8展示了Meta-Transformer在音频领域的性能。这些模型与AST[6]和SSAST[23]等现有方法在准确率、总参数(A-Params)和可训练参数(T-Params)方面进行了比较。冻结参数的Meta-Transformer-B32F达到78.3%的准确率,仅需要1.1M参数进行微调。另一方面,微调参数的Meta-Transformer-B32T模型在微调参数时表现出显著更高的准确率97.0%,而AST模型仅达到92.6%的准确率。当AST在ImageNet上预训练并补充额外的知识蒸馏(KD)时,其性能提高到98.1%,但可训练参数数量更高,为86.9M。SSAST模型在97.8%到98.0%的准确率范围内,需要89.3M参数。这些结果表明,Meta-Transformer在音频领域表现出色,展示了其在不同领域的多功能性和有效性。

视频理解结果

表9展示了Meta-Transformer和现有先进方法在UCF101数据集上进行视频理解的性能比较。几种最先进的视频专用方法的准确率超过90%。Meta-Transformer仅包含110万个可训练参数,达到46.6%的准确率,而其他方法需要训练约8690万个参数。尽管Meta-Transformer无法击败其他最先进的视频理解模型,但它在显著减少可训练参数数量方面表现突出,表明统一多模态学习和较少架构复杂性的潜在优势。

表9:使用Meta-Transformer进行视频理解。我们在UCF101 [82]数据集上进行实验,报告准确率分数和可训练参数数量,其中“V”表示仅视频剪辑

时间序列预测结果

为了探索Meta-Transformer在时间序列预测中的能力,我们在几个广泛采用的长期预测基准上进行实验,包括ETTh1[83]、Traffic、Weather和Exchange[84],结果如表10所示。

从表10中,我们可以得出以下观察结果。1) 大多数模型参数被固定,Meta-Transformer仍然可以超越现有方法,包括Pyraformer[117]、Informer[83]、LogTrans[118]和Reformer[119]。2) Meta-Transformer的可训练参数数量非常少。仅使用19K可训练参数,Meta-Transformer仍然可以超越Informer[83]。当训练2M参数时,Meta-Transformer可以直接超越Pyraformer[117]。因此,在感知任务上预训练的Meta-Transformer也可以应用于时间序列预测任务,这对该领域具有启发性。

表10:使用Meta-Transformer进行时间序列预测。按照TimesNet,我们报告了4种不同预测长度({96, 192, 336, 720})的可训练参数数量和平均性能

表格数据理解结果

表11提供了不同方法在成人普查和银行营销数据集上进行表格数据理解的性能比较结果。

Meta-Transformer-B16F在成人普查数据集上的准确率略低于其他方法,但在银行营销数据集上的准确率和F1分数优于所有其他方法。这表明Meta-Transformer在处理复杂数据集(如银行营销)时也具有优势。

表11:使用Meta-Transformer进行表格数据理解。我们报告准确率(%)和F1分数

图和IMU数据理解结果

我们在表12中报告了使用Meta-Transformer进行图理解的性能。我们将Meta-Transformer-B16F与各种图神经网络模型在PCQM4M-LSC数据集[86]上进行图数据理解的比较。在所有方法中,Graphormer表现出最佳性能,训练和验证MAE分数分别为0.0582和0.1234。相比之下,Meta-Transformer-B16F的训练和验证MAE分数分别为0.8034和0.8863,揭示了当前Meta-Transformer架构在结构数据学习中的有限能力。我们将在未来进一步改进这一点。此外,按照ImageBind[26]的做法,我们在Ego4D数据集[88]上进行分类,输入数据,Meta-Transformer达到73.9%的准确率。

表12:使用Meta-Transformer进行图数据理解。我们在PCQM4M-LSC数据集上进行实验,报告训练和验证的MAE分数及可训练参数数量

5 局限性

从复杂性、方法和进一步应用的角度来看,Meta-Transformer的局限性总结如下:

复杂性:Meta-Transformer在处理标记嵌入[E1,...,En]时需要O(n2×D)的计算。高内存成本和繁重的计算负担使其难以扩展。

方法:与TimeSformer[7]和Graphormer[125]中的轴向注意力机制相比,Meta-Transformer缺乏时间和结构感知。这一局限性可能影响Meta-Transformer在视频理解、视觉跟踪或社交网络预测等任务中的整体性能,这些任务中时间和结构建模起着关键作用。

应用:Meta-Transformer主要在多模态感知中表现出其优势。它在跨模态生成任务中的能力仍然未知。我们将在未来研究这一点。

6 结论

在人工智能发展的早期阶段,先驱者引入了多层感知器(MLP)来解决机器学习中的预测任务。后来,递归和卷积网络扩展了人工智能在多媒体数据处理中的能力,在从文本、图像、点云和音频中提取表示方面取得了显著成功。MLP随后被整合到深度卷积网络中。在本文中,我们探讨了普通变换器在统一多模态学习中的潜力,强调了使用变换器骨干开发统一多模态智能的有前途的趋势。在某种程度上,本文支持了变换器在下一代网络中的主导地位。重要的是,CNN和MLP并没有被淘汰。它们在数据标记化和表示投影中发挥着重要作用。这一过程体现了神经网络的连续性规律和人工智能的持续进化。

附录 A 总结

附录的组织如下:

  • 我们首先验证并讨论了Meta-Transformer在更多模态(如视频、红外、X射线和高光谱图像)上的潜力,除了主论文中展示的模态外,我们在§B中提供了这些模态的令人惊讶的实验结果。

  • 然后,我们进一步展示了Meta-Transformer在处理多模态任务(涉及来自多种模态的输入进行预测)中的性能和优点,在§C中。

  • 此外,我们在§D中介绍了文本、图像、点云和音频实验的更多细节。

  • 最后,我们在§E中讨论了Meta-Transformer对机器学习和计算机视觉社区的影响。

附录 B 单模态感知的扩展性

在本文的主体部分,我们展示了Meta-Transformer可以同时揭示自然语言、2D图像、3D点云和音频频谱图的潜在模式,使用相同的网络架构和网络参数。此外,我们探索了其在感知其他模态(如视频识别、红外、X射线和高光谱图像识别)中的能力。具体来说,我们在UCF101[82](视频)、RegDB[76](红外图像)、Chest X射线[77]和Indian Pine(高光谱图像)数据集上进行了实验。

视频识别

对于视频识别,我们按照VideoMAE[111]的方法修改了标记器,用3D嵌入层替换2D嵌入层,以同时编码输入帧中的时空信息。经过标记化后,通过利用模态共享编码器和任务特定头部,Meta-Transformer能够从视频中提取高级语义特征,并在UCF101数据集的动作识别任务中取得良好的性能。

数据集。UCF101[82]数据集是动作识别任务中常用的基准数据集。它是UCF50的扩展版本,包含101个类别的13320个视频剪辑。这些101个类别可以分为5组:身体运动、人-人交互、人-物交互、演奏乐器和运动。所有输入帧的分辨率为320×240,固定帧率为25 FPS,从YouTube收集。

红外图像识别

红外和高光谱图像识别由于其特定特征而面临独特挑战。对于红外图像,Meta-Transformer框架可以通过编码温度值和视觉特征来捕捉热信息,红外图像的标记器与常见RGB图像相同。

数据集。RegDB[76]数据集专注于评估红外识别算法在不受限和现实场景中的性能。它包括姿态、表情、光照和遮挡的变化。我们在RegDB数据集上进行实验,以评估Meta-Transformer在红外识别中的性能。

高光谱图像识别

类似地,对于高光谱图像,我们期望Meta-Transformer也能通过将每个光谱带表示为标记嵌入来处理高维光谱信息。与处理RGB图像相比,唯一的修改是我们使用新的线性投影层替换现有的2D卷积层。

数据集。Indian Pine数据集广泛用于遥感和高光谱图像分析。它由145×145像素和145个光谱带组成,在印第安纳州拍摄。

X射线图像识别

此外,我们探索了Meta-Transformer在医学图像分析中的潜力。我们在这里利用RGB图像的标记器来编码原始医学图像。具体来说,我们在Chest X射线[77]数据集上进行X射线图像分析实验。它是一个常用的医学图像集合,用于分析和诊断各种胸腔状况。它包含7000张胸部X射线图像。数据集带有标签,指示异常的存在或不存在,如肺部疾病、骨折和心脏状况。

附录 C 多模态感知的扩展性

由于本文涉及的模态包括文本、图像、点云和音频,我们没有像Flamingo[25]、OFA[10]或BEiT-3[3]等常见做法那样进行全面的多模态实验。相反,我们在一个新的具有挑战性的任务——音频-视觉分割[126]上进行了多模态实验,主要集中在构建一个智能听众,以与基本的视觉任务对齐。

音频-视觉分割

音频-视觉分割[126]指的是从参考图像中分割不同音频源对象的任务。其目标是开发同时分析音频和视觉信号的算法,以识别和描绘不同的源或事件。它在视频会议、监控、多媒体分析和增强现实等领域有应用。

表13:使用Meta-Transformer进行音频-视觉分割。我们在AVSS [126]数据集上进行实验,报告mIou(%)和F-score

我们在AVSS[126]数据集上进行实验,该数据集最近在音频-视觉研究领域发布。它提供了一个全面的音频和视觉数据集合,在现实场景中捕捉。数据集包括同步的音频和视觉记录,具有各种人类动作和自然声音事件。与引入多模态融合模块的现有方法不同,Meta-Transformer在数据到序列标记化后直接连接视觉和音频嵌入。在提取表示后,我们使用一个简单的全局平均池化层来获得两种模态的最终表示。表13展示了Meta-Transformer和现有方法在AVSS数据集上进行音频-视觉分割的性能。该任务的评估指标是mIou和F-score。相比之下,Meta-Transformer在所有其他方法中表现最佳,mIou为31.33%,F-score为0.387。它还因其显著较低的参数数量而脱颖而出,仅有8650万个参数,而其他方法的参数数量约为8000万到1.8亿。

Meta-Transformer在音频-视觉分割任务中具有以下优势:

  • 统一架构。它消除了模态特定的编码器,并通过利用统一编码器处理音频和图像,减少了计算量,从而实现更高效和简化的过程。

  • 更快的收敛。由于统一架构用于处理音频和图像,编码器可以深入对齐两种模态,而不仅仅是在输出端,从而实现更快的收敛。Meta-Transformer仅需要4个训练周期就能达到31.33%的mIou。

  • 优越的性能。Meta-Transformer在类似参数规模的模型中实现了显著的10%的改进。

  • 效率。尽管性能有所提高,Meta-Transformer在参数数量上要少得多,仅需要1/3的参数数量,这使得前向和后向过程更加轻松。

总之,将Meta-Transformer应用于多模态任务的好处在于计算效率、快速收敛、性能提升和参数效率。它揭示了将Meta-Transformer应用于更多多模态任务的显著有前途的方向。

附录 D 实验细节

我们的代码基于开源项目,包括MMClassification8、MMDetection9、MMsegmentation10、OpenPoints11、Time-Series-Library12和Graphomer13。我们衷心感谢他们的伟大贡献。更多实现细节可以在我们的源代码中找到。

附录 E 进一步影响讨论

模态无关感知

我们希望Meta-Transformer能够为多模态学习和多模态生成领域引入新的见解。Meta-Transformer能够使用共享编码器编码多种模态,例如自然语言、2D图像、3D点云以及音频频谱图,并将它们投影到共享表示空间。这自然减少了模态之间的差异,并减轻了跨模态对齐的负担。此外,Meta-Transformer消除了对配对训练数据(如图像-文本对)的需求,从而赋予多模态学习更多的训练灵活性。

应用前景

我们研究了Meta-Transformer在广泛模态(包括RGB图像、文本、点云、视频理解、遥感(高光谱图像)、夜间监控(红外图像)和医学分析(X射线图像))上的应用。

在视频理解中。Meta-Transformer揭示了通过将文本、音频和图像信息与共享编码器集成来增强视频分析和解释的潜力。这有利于动作识别、事件检测和视频摘要等任务。Meta-Transformer处理视频相关模态的能力为视频监控、视频索引和基于内容的视频检索等领域的改进视频理解应用铺平了道路。

在高光谱成像用于遥感中。Meta-Transformer通过提取高级语义特征,增强了分类、目标检测和土地覆盖映射等任务,提高了遥感应用的准确性和效率。处理高光谱图像使用Meta-Transformer的能力为环境监测、农业、城市规划和灾害管理等领域的进展打开了大门。

在医学应用中,特别是X射线图像分析。Meta-Transformer通过多模态信息提供了一种有前途的方法,以提高诊断准确性和效率。它能够有效捕捉和融合X射线图像、临床数据和其他模态的信息,以辅助疾病检测、异常识别和治疗计划。Meta-Transformer处理多模态数据的能力增强了更准确和全面的医学成像分析的潜力,从而改善患者护理和结果。

对于红外图像用于夜间识别和监控。Meta-Transformer处理红外数据的能力有助于在低光条件下提取关键信息,用于对象检测、跟踪和识别,从而为夜间监控、安全系统和在具有挑战性环境中的自主导航开辟了道路,通过红外摄像机与RGB摄像机的合作。

结论

总之,我们认为Meta-Transformer能够统一多模态学习的能力在于神经网络架构可以学习模态不变的模式。Meta-Transformer架构展示了长度可变标记嵌入在多模态学习中的优势,提供了灵活但统一的多种模态语义形式。现在是时候考虑设计算法来训练在未见模态上泛化的网络了。同时,设计统一多模态解码器的架构也很有趣,它可以将表示解码为任何特定模态的形式。

尽管Meta-Transformer展示了令人惊讶的性能,并展示了多模态感知的新方向,但我们不确定所提出的架构在生成任务中是否同样有效。开发模态不变的生成模型仍然是一个谜。我们希望这能激发未来的研究。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Together_CZ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值