多模态基础模型:从专家到通用助手

Multimodal Foundation Models:From Specialists to General-Purpose Assistants

微软最新多模态大模型综述。

alt

论文链接:http://arxiv.org/abs/2309.10020v1

项目链接:https://vlp-tutorial.github.io/

摘要

本文讨论了多模态基础模型的分类和演化,这些模型展示出视觉和视觉-语言能力,并着重讨论了从专业模型到通用助手模型的转变。该领域的研究涵盖了五个核心主题,分为两大类
第一类包括已经确立的研究领域,即针对特定目的进行预训练的多模态基础模型,包括两个主题:(1)学习视觉主干网络以进行视觉理解和文本到图像生成的方法。
第二类包括探索性的、开放性的研究领域的新进展,这些研究领域的目标是让模型扮演通用助手的作用,包括三个主题: (1)受大型语言模型(LLMs)启发的统一视觉模型;(2)多模态LLM的端到端训练;(3)将多模态工具与LLM串联起来。
该文章的目标受众是计算机视觉和视觉-语言多模态社区的研究人员、研究生和专业人士,他们渴望了解多模态基础模型的基础知识和最新进展。

内容概览

alt
alt
alt
alt

第一章 简介

视觉是人类和许多生物感知和与世界互动的主要渠道之一。人工智能(AI)的核心愿望之一是开发AI代理来模仿这种能力,以有效地感知和生成视觉信号,从而对视觉世界进行推理和互动。这些例子包括识别场景中的对象和动作,以及创建草图和图片进行通信。构建具有视觉能力的基准模型是一个普遍的研究领域,致力于实现这一目标。

alt

人工智能模型的发展分为四个阶段:

1.特定数据集特定任务的特定模型;
2.为下游任务提供基础的预训练模型;
3.各种任务统一的大模型;
4.通用助手作用的大模型。

在过去十年中,人工智能领域在模型发展方面经历了富有成效的轨迹。我们将它们分为四类,如图1.1所示。这种分类也可以在人工智能的不同领域之间共享,包括语言、视觉和多模态。我们首先使用自然语言处理(NLP)中的语言模型来说明这种演化过程。
(i)在早期,针对单个数据集和任务开发特定任务模型,通常从零开始训练
(ii)随着大规模预训练,语言模型在许多既定的语言理解和生成任务上达到了最先进的性能,例如BERT、RoBERTa、T5、DeBERTa和GPT-2。这些预训练模型为下游任务适应提供了基础。
(iii)以GPT-3为例,大型语言模型(LLMs)将各种语言理解和生成任务统一到一个模型中。通过大规模的训练和统一,出现了一些新兴的能力,例如上下文学习和思维链。
(iv)随着最近在人类与AI对齐方面的进步,LLM开始扮演通用助手的作用,以遵循人类的意图来在野外完成各种语言任务,例如ChatGPT(OpenAI,2022年)和GPT-4(OpenAI,2023a)。这些助手表现出有趣的特性,例如交互和使用工具,并为开发通用AI代理奠定了基础。值得注意的是,最新版本的基金会模型建立在早期对应版本的特点之上,同时也提供了额外的功能。

本文将多模态基础模型的范畴限定在视觉和视觉语言领域。 近期有关这方面的调查论文包括:

(i)图像理解模型,如自监督学习和SAM;
(ii)图像生成模型;
(iii)视觉语言预训练(VLP)。

现有的VLP调查论文涵盖了预训练时代之前针对特定VL问题的VLP方法、图像文本任务、核心视觉任务和/或视频文本任务。最近的两篇调查论文涵盖了视觉模型与大型语言模型(LLM)的集成。

其中,甘(2022)对VLP进行了综述,涵盖了2022年及之前CVPR教程系列的视觉和语言研究方向的最新进展。本文总结了2023年CVPR教程中关于视觉基础模型的最新进展。与上述调查论文不同,本文介绍了我们在大型语言模型时代多模态基础模型从专家到通用视觉助手角色转变的视角。本调查论文的贡献总结如下。

我们提供了一份关于现代多模态基础模型的全面及时调查,不仅包括视觉表示学习和图像生成等成熟模型,还总结了过去六个月受大型语言模型(LLMs)启发的最新主题,包括统一视觉模型、与LLMs的训练和链式模型。

本文旨在为受众提供支持多模态基础模型发展转变的视角。除了在特定视觉问题上的建模成功之外,我们正在努力构建能够遵循人类意图完成各种计算机视觉任务的通用助手。本文深入讨论了这些高级话题,展示了开发通用视觉助手的潜力。

1.1 什么是多模态基础模型?

正如斯坦福基础模型论文(Bommasani等,2021)所述,随着可以在广泛下游任务中适应的训练了宽泛数据的模型的兴起(例如BERT、GPT系列、CLIP[Radford等,2021]和DALL-E [Ramesh等,2021a]),AI正在经历一个范式转变。他们将这些模型称为基础模型,以强调其至关重要但不完整的特征:研究社区之间方法的同质化以及新能力的出现。

从技术角度来看,正是迁移学习使基础模型成为可能,而规模使它们变得强大。基础模型的出现在很大程度上被观察到在NLP领域,从BERT到ChatGPT都有相应的例子。这一趋势在近年来得到了越来越多的关注,扩展到了计算机视觉和其他领域。在NLP中,BERT于2018年底的推出被认为是基础模型时代的起始点。BERT的出色成功迅速激发了计算机视觉界对自监督学习的兴趣,从而催生了诸如SimCLR [Chen等,2020a]、MoCo [He等,2020]、BEiT [Bao等,2022]和MAE [He等,2022a]等模型。在同一时期,预训练的成功也显著促进了视觉-语言多模态领域受到前所未有的关注。

本文主要关注多模态基础模型,这些模型继承了斯坦福论文(Bommasani等,2021)中讨论的所有基础模型的属性,但重点在于具有处理视觉和视觉-语言模态的能力的模型。在不断增长的文献中,我们根据功能和通用性将多模态基础模型分为三类(图1.2)。对于每个类别,我们展示了这些多模态基础模型的主要能力。

alt

视觉理解模型

(图1.2中以橙色突出显示)学习通用的视觉表示对于构建视觉基础模型至关重要,因为预训练强大的视觉主干网络对于所有类型的计算机视觉下游任务都至关重要,这些任务包括图像级(例如,图像分类、检索和描述)、区域级(例如,检测和定位)和像素级任务(例如,分割)。我们根据用于训练模型的不同监督信号类型将方法分为三类。

标签监督

像ImageNet和ImageNet21K这样的数据集在监督学习中很受欢迎,工业实验室也使用更大规模专有数据集。

语言监督

语言是一种更丰富的监督形式。CLIP(Radford等,2021)和ALIGN(Jia等,2021)等模型是利用数百万甚至数十亿从Web上挖掘的图像-文本对通过对比损失进行预训练的。 这些模型能够实现零样本图像分类,并使传统计算机视觉(CV)模型能够执行开放词汇的CV任务。我们倡导野外计算机视觉的概念,并鼓励未来基础模型的开发和评估。

仅图像的自我监督

这条工作路线旨在从图像自身挖掘的监督信号中学习图像表示,包括对比学习(Chen等,2020a;He等,2020)、非对比学习(Grill等,2020;Chen and He,2021;Caron等,2021)和掩码图像建模【掩码图像建模(Masked Image Modeling, MIM)】。

多模态融合、区域级和像素级预训练

除了预训练图像主干网络的方法外,我们还将讨论允许多模态融合的预训练方法(例如CoCa(Yu等,2022a)、Flamingo(Alayrac等,2022)),以及区域级和像素级图像理解,例如开集目标检测(例如GLIP(Li等,2022e))和可提示的分割(例如SAM(Kirillov等,2023))。这些方法通常依赖于预训练的图像编码器或预训练的图像-文本编码器对。

视觉生成模型

(图1.2中以绿色突出显示)最近,由于出现了大规模的图像-文本数据,已经建立了基础图像生成模型。使其成为可能的技术包括向量量化的变分自编码器方法(Razavi等,2019)、基于扩散的方法(Dhariwal和Nichol,2021)和自回归模型(Kong等,2020b)。

文本条件视觉生成

这个研究领域专注于生成可靠的视觉内容,包括图像、视频等,这些内容受开放式文本描述/提示的约束。文本到图像生成开发了生成模型,这些模型合成了高度逼真的图像以遵循文本提示。突出的例子包括DALL-E(Ramesh等,2021a)、DALL-E 2(Ramesh等,2022)、稳定扩散Stable Diffusion(Rombach等,2021;sta,2022)、Imagen(Saharia等,2022)和Parti(Yu等,2022b)。在文本到图像生成模型的成功的的基础上,文本到视频生成模型根据文本提示生成视频,例如Imagen Video(Ho等,2022)和Make-A-Video。

人类一致的视觉生成器

这个研究领域专注于改进预训练的视觉生成器,以更好地遵循人类意图。已经为解决基础视觉生成器固有的各种挑战做出了努力。其中包括提高空间控制能力(Zhang and Agrawala,2023;Yang等,2023b)、确保更好地遵循文本提示(Black等,2023)、支持灵活的基于文本的编辑(Brooks等,2023)和促进视觉概念的定制

通用接口

(图1.2中以蓝色突出显示)上述多模式基础模型是为特定目的而设计的,解决特定的一组CV问题/任务。最近,我们看到通用模型的涌现,这些模型奠定了AI代理的基础。现有的努力集中在三个研究主题。第一个主题旨在统一视觉理解和生成模型。这些模型受到NLP中LLM统一精神的启发,但在建模中没有明确利用预训练的LLM。相反,另外两个主题在建模中接受和涉及LLM,包括与LLM的训练和串联。

统一的视觉模型,用于理解和生成

在计算机视觉中,已经尝试通过组合特定目的多模式模型的特性来构建通用基础模型。为此,采用统一的模型架构来处理各种下游计算机视觉和视觉语言(VL)任务。统一化程度有不同级别。
首先,一个普遍的努力是通过将所有闭集视觉任务转换为开集任务来弥合视觉和语言之间的鸿沟,例如CLIP(Radford等,2021)、GLIP(Li等,2022f)、OpenSeg(Ghiasi等,2022a)等。
其次,不同粒度级别的不同VL理解任务之间的统一也在积极探索中,例如UniTAB(Yang等,2021)、Unified-IO(Lu等,2022a)、Pix2Seq-v2(Chen等,2022d)等IO统一方法,以及GPV(Gupta等,2022a)、GLIP-v2(Zhang等,2022b)和X-Decoder(Zou等,2023a)等功能统一方法。
最后,也有必要使模型更具有交互性和可提示性,类似于ChatGPT,最近在SAM(Kirillov等,2023)和SEE- M中对此进行了研究。

使用LLM进行训练

与LLM的行为类似,它们可以通过遵循指令并处理任务示例的文本提示来解决语言任务。因此,开发一个视觉和文本界面,使模型朝着解决多模式任务的方向发展是可取的。通过扩展LLM在多模式设置中的能力并从头到尾训练模型,开发了多模态LLM或大型多模态模型,包括Flamingo(Alayrac等,2022)和Multimodal GPT-4。

与LLM工具的链式使用

越来越多的研究利用LLM(如ChatGPT)的工具使用能力,将其与各种多模式基础模型相结合,以通过对话界面促进图像理解和生成。这种跨学科的方法结合了NLP和计算机视觉的优点,使研究人员能够开发更健壮和多功能的AI系统,这些系统能够处理视觉信息并通过人机对话生成类似人类的响应。代表性作品包括Visual ChatGPT(Wu等,2023a)和MM-REACT。

1.2 从专家到通用助手的功能定义与转变

根据自然语言处理(NLP)中的模型发展历史和分类,我们将图1.2中的多模式基础模型分为两类:

特定目的预训练视觉模型

涵盖了大多数现有的多模式基础模型,包括视觉理解模型(例如CLIP [Radford等人,2021]、SimCLR [Chen等人,2020a]、BEiT [Bao等人,2022]、SAM [Kirillov等人,2023])和视觉生成模型(例如稳定扩散[Rombach等人,2021;sta,2022]),因为它们为特定视觉问题提供了强大的可转移能力。

通用助手

能够理解人类意图并完成各种计算机视觉任务的AI助手。通用助手的含义有两个方面:(1)具有统一架构的通才,能够完成不同问题类型的任务;(2)易于遵循人类指令,而不是取代人类。为了实现这一目标,已经积极探索了几个研究课题,包括统一视觉建模和与大型语言模型(LLM)的训练和链式使用等。

1.3 本文目标人群

这篇论文是围绕着我们2023年CVPR的教程展开的,主要面向计算机视觉和视觉语言多模式社区的研究人员。它回顾了文献,并向那些寻求学习多模式基础模型的基础知识和最新进展的人解释了相关主题。目标受众包括研究生、研究人员和专业人士,他们不是多模式基础模型专家,但渴望拓展视野并了解该领域的发展趋势。

alt

这篇论文的结构如图1.3所示,包括7个章节:

第一章介绍了多模式基础模型研究的全貌,并从历史角度呈现了从专家到通用助手的研究转变。
第二章介绍了消费视觉数据的不同方式,重点是学习强大的图像主干道。
第三章描述了如何生成符合人类意图的视觉数据。
第四章描述了如何设计统一的视觉模型,该模型具有交互式和可提示的界面,特别是在不使用大型语言模型(LLMs)的情况下。
第五章描述了如何以端到端的方式训练LLM来消费视觉输入以进行理解和推理。
第六章描述了如何将多模式工具与LLM链起来以实现新的功能。
第七章总结了这篇论文并讨论了研究趋势。

不同章节关系。第2-6章是这篇调查报告的核心章节。这些章节的结构概述请参见图1.2。我们首先从两个典型的特定任务的跨模态基础模型开始讨论,包括第二章的视觉理解和第三章的视觉生成。由于多模态基础模型的概念最初是基于视觉主干/表示学习来理解任务,我们首先对图像主干学习方法的转变进行了全面的回顾,从早期的监督方法到最近的Language-Image对比方法,并从图像级别扩展到区域级别和像素级别的讨论(第二章)。最近,生成式人工智能变得越来越流行,已经开发了视觉生成基础模型。在第三章中,我们讨论了大型预训练的文本到图像模型,以及社区利用生成基础模型来开发新技术,使它们更好地符合人类意图的各种方式。受到NLP中LLMs作为日常生活广泛语言任务的通用助手的最新进展的启发,计算机视觉社区一直在期待并尝试构建通用视觉助手。我们讨论了构建通用助手的三种不同方式。受LLMs精神的启发,第四章的重点是统一不同的视觉理解模型和生成模型,而不需要在建模中明确包含LLMs。相反,第五章和第六章的重点是通过在建模中明确增强LLMs来拥抱LLMs,以构建通用视觉助手。具体来说,第五章描述了端到端训练方法,第六章关注训练之外的方法,将各种视觉模型链接到LLM上。

1.4 相关资料

该报告扩展了作者们在CVPR 2023教程中介绍的内容,涵盖了该领域最新的进展。下面提供了一份幻灯片和预录制演讲的清单,这些内容与各章节的主题相关,可供参考。

alt

这些资料用户可以到https://vlp-tutorial.github.io/2023/自行下载。

alt

微信公众号

如果你觉得本文对你有帮助,欢迎关注微信公众号--计算机视觉前沿,获取更多精彩。

alt

本文由 mdnice 多平台发布

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值