多模态大模型论文总结

MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training

在这项工作中,我们讨论了建立高性能的多模态大型语言模型(MLLMs)。特别是,我们研究了各种模型结构组件和数据选择的重要性。通过对图像编码器、视觉语言连接器和各种预训练数据选择的仔细而全面的验证,我们确定了几个关键的设计教训。

例如,我们证明,与其他已发表的多模式预训练结果相比,对于使用图像字幕、交错图像文本和纯文本数据的仔细混合的大规模多模态预训练,在多个基准上实现最先进的(SOTA)few-shot结果是至关重要的。

此外,我们还表明,图像编码器以及图像分辨率和图像令牌计数具有实质性影响,而视觉语言连接器设计的重要性相对可以忽略不计。

通过扩大所提出的方案,我们构建了MM1,这是一个多模态模型家族,包括高达30B的密集变体和高达64B的专家混合变体,它们在预训练指标中是SOTA,并在对一系列已建立的多模式基准进行监督微调后实现竞争性能。得益于大规模的预训练,MM1具有增强的上下文学习和多图像推理等吸引人的特性,能够实现少镜头的思维链提示。

A survey of resource-efficient llm and multimodal foundation models

大型基础模型,包括大型语言模型(LLM)、Vision-Transformer(ViT)、Diffusion模型和基于LLM的多模态模型,正在彻底改变从训练到部署的整个机器学习生命周期。

然而,这些模型在多功能性和性能方面的实质性进步在硬件资源方面付出了巨大成本。为了以可扩展和环境可持续的方式支持这些大型模型的增长,人们非常重视制定资源节约型战略。

这项调查深入探讨了此类研究的关键重要性,考察了算法和系统方面。它提供了从现有文献中收集到的全面分析和有价值的见解,涵盖了从尖端模型架构和训练/服务算法到实用系统设计和实现的广泛主题。这项调查的目标是对当前方法如何应对大型基础模型带来的资源挑战进行总体了解,并有可能激发该领域的未来突破。

Mulan: Multimodal-llm agent for progressive multi-object diffusion

现有的文生图模型仍然很难生成多个对象的图像,特别是在处理其空间位置、相对大小、重叠和属性绑定时。在本文中,我们开发了一种无需训练的多模式LLM代理(MuLan),通过具有规划和反馈控制的渐进式多对象生成来应对这些挑战,就像人类画家一样。

MuLan利用大型语言模型(LLM)将提示分解为一系列子任务每个子任务仅生成一个对象,条件是之前通过稳定扩散生成的对象。与现有的LLM基础方法不同,MuLan只在开始时生成高级计划,而每个对象的确切大小和位置由LLM和每个子任务的注意力指导决定。

此外,MuLan采用视觉语言模型(VLM)为每个子任务中生成的图像提供反馈,并控制扩散模型,以便在违反原始提示符时重新生成图像。因此,MuLan每个步骤中的每个模型只需要解决它专门针对的简单子任务。我们收集了200个提示,其中包含来自不同基准的具有空间关系和属性绑定的多对象,以评估MuLan。结果表明,MuLan在生成多个对象方面优于基线。该代码可在此https URL上找到。

Large Multimodal Agents: A Survey

Large language models (LLMs) have achieved superior performance in powering text-based AI agents, endowing them with decision-making and reasoning abilities akin to humans. Concurrently, there is an emerging research trend focused on extending these LLM-powered AI agents into the multimodal domain. This extension enables AI agents to interpret and respond to diverse multimodal user queries, thereby handling more intricate and nuanced tasks. In this paper, we conduct a systematic review of LLM-driven multimodal agents, which we refer to as large multimodal agents ( LMAs for short). First, we introduce the essential components involved in developing LMAs and categorize the current body of research into four distinct types. Subsequently, we review the collaborative frameworks integrating multiple LMAs , enhancing collective efficacy. One of the critical challenges in this field is the diverse evaluation methods used across existing studies, hindering effective comparison among different LMAs . Therefore, we compile these evaluation methodologies and establish a comprehensive framework to bridge the gaps. This framework aims to standardize evaluations, facilitating more meaningful comparisons. Concluding our review, we highlight the extensive applications of LMAs and propose possible future research directions. Our discussion aims to provide valuable insights and guidelines for future research in this rapidly evolving field. An up-to-date resource list is available at this https URL.

AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling

我们引入了AnyGPT,这是一个任何对任何模态的多模态语言模型,它利用离散表示来统一处理各种模式,包括语音、文本、图像和音乐。任何GPT都可以稳定地训练,而无需对当前的大型语言模型(LLM)架构或训练范式进行任何更改。相反,它完全依赖于数据级预处理,促进将新模态无缝集成到LLM中,类似于纳入新语言。

我们为多模态对齐预训练构建了一个以文本为中心的多模态数据集。

利用生成模型,我们合成了第一个大规模的任意到任意模态的多模态指令数据集。

它由108k个多轮对话样本组成,这些样本错综复杂地交织了各种模态,从而使模型能够处理多模态输入和输出的任意组合。实验结果表明,AnyGPT能够促进任何对任何多模态对话,同时实现与所有模态的专业模型相当的性能,证明离散表示可以有效和方便地统一语言模型中的多种模态。演示显示在此https URL

​​​​​​​

Scalable diffusion models with transformers

We explore a new class of diffusion models based on the transformer architecture. We train latent diffusion models of images, replacing the commonly-used U-Net backbone with a transformer that operates on latent patches. 

我们探索了一类新的基于Transformer架构的扩散模型。我们训练图像的latent diffusion模型,将常用的U-Net主干替换为对latent patches进行操作的Transformer。

We analyze the scalability of our Diffusion Transformers (DiTs) through the lens of forward pass complexity as measured by Gflops. We find that DiTs with higher Gflops—through increased transformer depth/width or increased number of input tokens—consistently have lower FID. 

我们通过Gflops测量的前向计算的复杂性来分析我们的diffusion transformer(DiTs)的可扩展性。我们发现,通过增加transformer模型 深度/宽度或增加输入令牌数量,具有较高Gflop的DiT始终具有较低的FID。

In addition to pos- sessing good scalability properties, our largest DiT-XL/2 models outperform all prior diffusion models on the class- conditional ImageNet 512⇥512 and 256⇥256 benchmarks, achieving a state-of-the-art FID of 2.27 on the latter.

除了具有良好的可扩展性外,我们最大的DiT XL/2模型在类条件ImageNet 512上的性能优于所有先前的扩散模型⇥512和256⇥256个基准,在后者上实现了2.27的最先进FID。

256⇥256 ImageNet. Following our scaling analysis, we continue training our highest Gflop model, DiT-XL/2, for 7M steps. 

We show samples from the model in Figures 1, and we compare against state-of-the-art class-conditional generative models. 

​​​​​​​256⇥256 ImageNet。在我们的缩放分析之后,我们继续训练我们的最高Gflop模型DiT XL/2,进行700万步。

We report results in Table 2. 

When using classifier-free guidance, DiT-XL/2 outperforms all prior diffusion models, decreasing the previous best FID-50K of 3.60 achieved by LDM to 2.27. 

当使用无分类器引导时,DiT XL/2优于所有先前的扩散模型,将LDM实现的3.60的先前最佳FID-50K降低到2.27。

Figure 2 (right) shows that DiT-XL/2 (118.6 Gflops) is compute-efficient relative to latent space U-Net models like LDM-4 (103.6 Gflops) and substantially more efficient than pixel space U-Net mod- els such as ADM (1120 Gflops) or ADM-U (742 Gflops).

图2(右)显示,DiT XL/2(118.6G触发器)相对于像LDM-4(103.6G触发器)这样的潜在空间U-Net模型具有计算效率,并且显著高于像ADM(1120触发器)或ADM-U(742触发器)那样的像素空间U-Net模型。​​​​​​​

Our method achieves the lowest FID of all prior generative models, including the previous state-of-the-art StyleGAN- XL [53]. 

Finally, we also observe that DiT-XL/2 achieves higher recall values at all tested classifier-free guidance scales compared to LDM-4 and LDM-8. 

When trained for only 2.35M steps (similar to ADM), XL/2 still outperforms all prior diffusion models with an FID of 2.55.

我们的方法实现了所有先前生成模型中最低的FID,包括先前最先进的StyleGAN-XL[53]。

最后,我们还观察到,与LDM-4和LDM-8相比,DiT XL/2在所有测试的无分类器引导量表上都实现了更高的召回值。

当仅训练235万步(类似于ADM)时,XL/2仍然优于所有先前的扩散模型,FID为2.55。

512⇥512 ImageNet. We train a new DiT-XL/2 model on ImageNet at 512 ⇥ 512 resolution for 3M iterations with identical hyperparameters as the 256 ⇥ 256 model. 

With a patch size of 2, this XL/2 model processes a total of 1024 tokens after patchifying the 64 ⇥ 64 ⇥ 4 input latent (524.6 Gflops). Table 3 shows comparisons against state-of-the-art methods. 

XL/2 again outperforms all prior diffusion models at this resolution, improving the previous best FID achieved by ADM from 3.85 to 3.04. 

Even with the increased number of tokens, XL/2 remains compute-efficient. For exam- ple, ADM uses 1983 Gflops and ADM-U uses 2813 Gflops; XL/2 uses 524.6 Gflops. We show samples from the high-resolution XL/2 model in Figure 1 and the appendix.

512⇥512 ImageNet。我们在ImageNet上以512训练一个新的DiT XL/2模型⇥ 512分辨率,用于3M迭代,具有与256相同的超参数⇥ 256型号。

补丁大小为2,此XL/2模型在对64个进行补丁处理后,总共处理1024个令牌⇥ 64⇥ 4个潜在输入(524.6G触发器)。表3显示了与最先进方法的比较。

在该分辨率下,XL/2再次优于所有先前的扩散模型,将ADM实现的先前最佳FID从3.85提高到3.04。

即使令牌数量增加,XL/2仍保持计算效率。例如,ADM使用1983 Gflops,ADM-U使用2813 Gflops;XL/2使用524.6 Gflops。我们在图1和附录中展示了高分辨率XL/2模型的样本。

DiT Gflops are critical to improving performance. The results of Figure 6 suggest that parameter counts do not uniquely determine the quality of a DiT model. 

DiT Gflops对于提高性能至关重要。图6的结果表明,参数计数并不能唯一地决定DiT模型的质量。

As model size is held constant and patch size is decreased, the transformer’s total parameters are effectively unchanged (actually, total parameters slightly decrease), and only Gflops are increased. These results indicate that scaling model Gflops is actually the key to improved performance. 

当模型大小保持不变并且patch大小减小时,transformer的总参数有效地保持不变(实际上,总参数略有减小),并且只有Gflops增加。这些结果表明,缩放模型Gflops实际上是提高性能的关键。

To investigate this further, we plot the FID-50K at 400K training steps against model Gflops in Figure 8. The results demonstrate that different DiT configs obtain similar FID values when their total Gflops are similar (e.g., DiT-S/2 and DiT-B/4). 

为了进一步研究这一点,我们在图8中绘制了400K训练步骤下的FID-50K与模型Gflops的关系图。结果表明,当不同的DiT配置的总Gflop相似时(例如,DiT-S/2和DiT-B/4),它们获得相似的FID值。

We find a strong negative correlation between model Gflops and FID-50K, suggesting that additional model compute is the critical ingredient for improved DiT models. In Figure 12 (appendix), we find that this trend holds for other metrics such as Inception Score.

我们发现模型Gflops和FID-50K之间存在很强的负相关性,这表明额外的模型计算是改进DiT模型的关键因素。在图12(附录)中,我们发现这一趋势适用于其他指标,如初始得分。

Where Visual Speech Meets Language: VSP-LLM Framework for Efficient and Context-Aware Visual Speech Processing

视觉语音处理中,由于嘴唇运动的模棱两可,上下文建模能力是最重要的要求之一。例如,同源性,即共享相同唇部运动但产生不同声音的单词,可以通过考虑上下文来区分。在本文中,我们提出了一个新颖的框架,即与LLM(VSP-LLM)相结合的可视化语音处理,通过带来LLM的压倒性力量来最大限度地提高上下文建模能力。具体来说,VSP-LLM旨在执行可视化语音识别和翻译的多任务,其中给定的指令控制任务类型。通过使用自我监督的视觉语音模型,将输入视频映射到LLM的输入潜在空间。专注于输入帧中存在冗余信息的事实,我们提出了一种新颖的重复数据删除方法,通过使用视觉语音单元来减少嵌入的视觉特征。通过拟议的重复数据删除和低秩适配器(LoRA),VSP-LLM可以以计算高效的方式进行训练。在翻译数据集MuAViC基准中,我们证明,与最近训练有433小时标签数据的翻译模型相比,VSP-LLM只需15小时的标签数据就可以更有效地识别和翻译嘴唇运动。

​​​​​​​
 

摘要:

联合处理多模态信息的能力正成为一项重要任务。然而,成对的多模态数据的数量有限,以及多模态学习中的大量计算需求阻碍了这一发展。

我们提出了一种新的三模态翻译(TMT)模型,该模型可以在跨越语音、图像和文本的任意模态之间进行翻译。我们引入了一种新颖的观点,将不同的模态解释为不同的语言,并将多模态翻译视为一个公认的机器翻译问题。

为此,我们将语音和图像数据标记为离散标记,这提供了跨模态的统一接口,并显著降低了计算成本。在所提出的TMT中,多模态编码器-解码器进行核心翻译,而模态特定处理仅在标记化和去标记化阶段进行。

我们对所提出的TMT在所有六个模态翻译任务上进行了评估。TMT始终优于单一模型,这表明统一任务不仅有利于实用性,而且有利于性能。

The training data comprises Conceptual Captions 3M (CC3M), Conceptual Captions 12M (CC12M) (Sharma et al.2018Changpinyo et al.2021), COCO (Lin et al.2014), SpokenCOCO (Hsu et al.2021b), Flickr8k (Hodosh et al.2013), and Flickr8kAudio (Harwath and Glass2015). 

For COCO and Flickr8k, we employ the original corpora for image-text pairs and then further employ SpokenCOCO and Flickr8kAudio, their recorded speech version, to comprise audio-text-image tri- modal pairs. 

For CC3M and CC12M, VITS (Kim et al.2021a), a TTS model trained on VCTK (Yamagishi et al.2019), is employed to synthesize speech from random speakers to compile audio- text-image pairs. The evaluation is performed on the test split of COCO and Flickr8k after finetuning. The popular Karpathy splits (Karpathy and Fei-Fei2015) are employed for COCO and Flickr8k.

结论:

我们介绍了TMT,一种新颖的语音、图像和文本三模态翻译模型。我们将不同的模态解释为新的语言,并在标记所有模态后将MMT任务视为NMT任务。

我们的实验表明,使用多模式编码器-解码器架构,将六个MMT任务合并到一个模型中,可以成功地转换这三种模式。TMT的表现优于单一MMT模型的同行。

值得注意的是,TMT与由超过2.7B个参数组成的基于LLM的方法实现了相当的性能,而TMT只有270M个参数。

Multilingual Visual Speech Recognition with a Single Model by Learning with Discrete Visual Speech Units

本文首次用单一模型探索了句子级多语言视觉语音识别。由于视觉数据的大规模多语言建模需要巨大的计算成本,我们提出了一种新颖的策略,即使用视觉语音单元进行处理。在音频语音单元最近成功的激励下,拟议的视觉语音单元是通过离散从自我监督的视觉语音模型中提取的视觉语音特征来获得的。为了正确捕捉多语种视觉语音,我们首先在5,512小时的多语种视听数据上训练自我监督的视觉语音模型。通过分析,我们验证了视觉语音单元主要包含视觉信息,同时抑制非语言信息。通过使用视觉语音单元作为我们系统的输入,我们预先训练模型,以预测通过合并几个VSR数据库构建的大规模多语言数据的相应文本输出。由于输入和输出都是离散的,与标准VSR培训相比,我们可以大大提高培训效率。具体来说,输入数据大小减少到原始视频输入的0.016%。为了补充语音识别中视觉信息不足,我们应用课程学习,系统的输入从视听语音单元开始,并逐渐转变为视觉语音单元。预训练后,模型在连续特征上进行微调。我们通过实现与之前特定语言的VSR模型相当的性能,通过单一训练模型来设置新的最先进的多语言VSR性能。

  • 25
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值