4M-21:霸气侧漏高效的20+多模态AI模型

大模型技术论文不断,每个月总会新增上千篇。本专栏精选论文重点解读,主题还是围绕着行业实践和工程量产。若在某个环节出现卡点,可以回到大模型必备腔调或者LLM背后的基础模型重新阅读。而最新科技(Mamba,xLSTM,KAN)则提供了大模型领域最新技术跟踪。若对于具身智能感兴趣的请移步具身智能专栏。技术宅麻烦死磕AI架构设计

4M-21证明了在21种不同的模态和任务上成功训练任意模型。这一成就是通过采用特定于模态的分词器将所有模态映射到离散的Token集,以及多模态Mask训练目标来实现。

与更专业的模型相比,该模型可在多个数据集中扩展到30亿个参数,而不会影响性能。由此产生的统一模型表现出强大的开箱即用功能,并为多模态交互、生成和检索开辟了新的途径。未来4M-21还需要进一步的探索迁移和涌现能力。

从4M看起

最近解决视觉中多任务学习挑战的尝试已经从组合密集的视觉任务发展到将众多任务集成到统一的多模态模型中。Gato、OFA、Pix2Seq、UnifiedIO和4M等方法将各种模态转换为离散Token,并使用序列或掩码建模目标训练Transformer。一些方法通过对不相交数据集的共同训练来实现更加广泛的任务,而其他方法(如 4M)则使用伪Token对的对齐数据集进行任意到任意模态的预测。

掩码(Mask)建模已被证明在学习跨模态表示方面是有效的,这对于多模态学习至关重要,并且在与Token相结合时可以实现生成式应用程序。

上图是4M例子,注意不是今天的4M-21!!小编来解释下:左边是一幅图的不同维度数据,例如RGB、标题、深度、表面法线、语义分割图、边界框和标记化CLIP特征图。选择这些模态是为了涵盖几个关键方面:语义信息(标题、语义分割、边界框、CLIP)、几何信息(深度、表面法线)和RGB的混合。当用作输入模态时,这些模态可用作有关场景几何及其语义内容的先验信息。当用作目标任务时,它们使模型能够控制学习何种表示。

这些模态在用于编码信息的格式方面是多种多样的。它们由密集的视觉模态(RGB、深度、表面法线、语义分割)、稀疏和/或基于序列的模态(标题、边界框)以及神经网络特征图(CLIP)组成。最后,这些模态允许与模型进行多样化和丰富的交互。

上图右边是一个典型的编码和解码的框架,4M预训练目标包括训练 Transformer编码器-解码器,训练是以一个随机Token子集预测从所有模态中随机采样的另一个子集。大白话输入和输出都是随机抽样,按照“填空游戏”进行训练模型。其实某种意义上就是另一种“BERT”。

4M-21

来自苹果公司和瑞士洛桑联邦理工学院(EPFL)的研究人员在多模态掩蔽预训练方案的基础上构建了他们的方法,通过对各种模态的训练显着扩展了其能力。该方法包含20多种模态,包括SAM片段、3D人体姿势、调色板以及各种元数据。通过使用特定于模态的离散分词器,该方法将不同的输入编码为统一的格式,从而能够在多个模态上训练单个模型,而不会降低性能。

下面的例子何其壮观。

4M-21 可以从任何给定的输入模态生成所有模态,并且可以从链式生成中获益。请注意,对于一个输入,所有模态的预测之间具有高度一致性。例子中的每一行都是同一场景的不同模态输入。

绿色突出显示的是 4M无法预测或接受作为输入的新输入/输出对。虽然此图显示了来自单个输入的预测,但 4M-21 可以从所有模态的任何子集生成任何模态。

4M-21采用4M预训练方案,将其扩展为处理多种模式。它使用特定于模态的分词器将所有模态转换为离散标记序列。训练目标包括使用从所有模态中随机选择的随机选择作为输入和目标,从另一个标记子集预测一个标记子集。它利用伪标签来创建一个具有多种对齐模式的大型预训练数据集。该方法包含多种模态,包括 RGB、几何、语义、边缘、特征图、元数据和文本。

项目主要采用三种主要类型的分词器:用于类图像模态的基于 ViT 的分词器,用于人体姿势和全局嵌入的 MLP 分词器,以及用于文本和其他结构化数据的 WordPiece 分词器。这种全面的标记化方法使模型能够有效地处理各种模态,从而降低计算复杂性并实现跨多个领域的生成任务。<是不是觉得很眼熟啊,这不就是自编码器先走一波么!>

霸气侧漏的功能

4M-21模型展示了广泛的功能,包括可操纵的多模态生成、多模态检索以及在各种视觉任务中的强大开箱即用性能。

该模型根据来至任何模态输入的全局嵌入(Embeddings)来进行多模态的检索操作(上图)。下图代表更多的例子,从一个标题可以检索出各种图片。

在开箱即用的评估中,4M-21在表面法线估计、深度估计、语义分割、实例分割、3D 人体姿态估计和图像检索等任务上取得了具有竞争力的表现。特别是4M-21 XL变体,在多种模式中表现出强大的性能,而不会牺牲任何单个领域的能力。

给出一副RGB的图片,4M-21能够预测所有的任务,而且保持高度的一致性。

研究人员检查了在大量模态上预训练任意到任意模型的缩放特征,比较了三种模型大小:B、L和XL。评估单模态(RGB)和多模态(RGB+深度)迁移学习场景。在单模态传输中,4M-21在任务上保持了与原始七种模式相似的性能,同时在3D对象检测等复杂任务上显示出改进的结果。随着尺寸的增加,该模型表现出更好的性能,该研究表明,在更广泛的模态下进行训练不会影响原有成熟任务,反而增强了新任务能力,尤其是在模型规模扩大的前提下。

  • 45
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 很高兴为你推荐多模型。这里是20个多模型的列表: 1. 多卷积神经网络 (MMCNN) 2. 多自动编码器 (MAE) 3. 多自动编码器 - 监督学习 (MAE-SL) 4. 多卷积自动编码器 (MCAAE) 5. 多图卷积自动编码器 (MGCAAE) 6. 多图卷积生成对抗网络 (MGC-GAN) 7. 多图卷积网络 (MGCN) 8. 多图卷积生成对抗网络 - 监督学习 (MGC-GAN-SL) 9. 多图卷积网络 - 监督学习 (MGCN-SL) 10. 多图卷积神经网络 (MGCNN) 11. 多图卷积神经网络 - 监督学习 (MGCNN-SL) 12. 多图卷积网络 - 协同过滤 (MGCN-CF) 13. 多图卷积神经网络 - 协同过滤 (MGCNN-CF) 14. 多图卷积网络 - 结构化解码 (MGCN-SD) 15. 多图卷积神经网络 - 结构化解码 (MGCNN-SD) 16. 多图卷积网络 - 受限条件随机场 (MGCN-CRF) 17. 多图卷积神经网络 - 受限条件随机场 (MGCNN-CRF) 18. 多图卷积网络 - 深度 ### 回答2: 以下是20个多模型的推荐: 1. DALL-E:OpenAI的生成模型,可将文本描述转换为图像。 2. BERT-Vision:Google的模型,结合了BERT和CNN,用于图像和文本任务。 3. Unicoder:Facebook的模型,可以将文本和语言翻译为多种语言。 4. ViLBERT:多预训练模型,用于图像和文本任务,具有强大的语义理解能力。 5. CLIP:OpenAI模型,可以通过文本描述搜索和理解图像。 6. MMAction:多动作识别库,适用于视频和图像分析任务。 7. VLP:多预训练模型,用于图像和文本的对齐和双向编码。 8. MUTAN:一种多交互模型,用于图像和文本相关性推理。 9. MUREX:一种用于多表情识别的模型,结合了图像和声音特征。 10. MMT:多推理模型,用于图像和文本的视觉问答任务。 11. CMN:一种用于多情感分析的模型,整合了图像和文本特征。 12. MARN:多对话系统模型,用于视觉问答和对话任务。 13. SCAN:一种用于图像和文本对齐的模型,可进行跨检索和检测。 14. HME-VR:一种用于多情感识别的模型,结合了语言和视觉特征。 15. VSE++:多对齐的图像和文本检索模型,可用于图像和文本相关性判断。 16. MMGAN:多生成对抗网络,用于图像和文本生成任务。 17. MTLR:多迁移学习模型,将知识从一个迁移到另一个。 18. CM-CNN:一种多分类模型,结合了卷积神经网络和传统分类器。 19. MCTN:一种多强化学习模型,用于图像和文本的场景理解和决策。 20. MMBT:一个用于多文本分类的模型,结合了BERT和图像特征。 ### 回答3: 多模型是指用于处理多种类型数据(如文本、图像、声音等)的深度学习模型。以下是20个常用的多模型的推荐: 1. Transformer:用于文本和图像之间的跨表示学习。 2. ResNet:用于图像分类和特征提取。 3. VGGNet:用于图像分类和物体识别。 4. LSTM:用于文本生成和序列分类问题。 5. Gated Recurrent Unit (GRU):用于文本生成和序列分类问题。 6. InceptionNet:用于图像分类和特征提取。 7. DenseNet:用于图像分类和特征提取。 8. CycleGAN:用于图像转换(如风格迁移)。 9. DeepAudioNet:用于音频分类和特征提取。 10. SoundNet:用于音频分类和特征提取。 11. VisualBERT:用于图像和文本之间的联合表示学习。 12. TextCNN:用于文本分类和情感分析。 13. DeepWalk:用于图网络嵌入学习。 14. Image Captioning:用于图像生成对应的描述文本。 15. Tacotron:用于语音合成。 16. TSN (Temporal Segment Network):用于视频动作分类。 17. ST-GCN (Spatial Temporal Graph Convolutional Networks):用于视频动作识别。 18. Hetero-Match:用于异构匹配(如图像和文本匹配)。 19. ViLBERT:用于图像和视频与自然语言文本之间的联合表示学习。 20. GPT (Generative Pre-trained Transformer):用于文本生成和语言建。 以上模型仅为推荐,具体选择应根据具体任务需求和数据类型来选择适合的模型

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值