概要
本文对展示视觉和视觉语言能力的多模态基础模型的分类和演变进行了全面调查,重点关注从专业模型到通用助手的过渡。研究领域包括五个核心主题,分为两类。(i) 我们从对成熟研究领域的调查开始:为特定目的预先训练的多模态基础模型,包括学习视觉主干用于视觉理解和文本到图像生成的两个主题方法。(ii) 然后,我们介绍了探索性、开放研究领域的最新进展:旨在发挥通用助手作用的多模态基础模型,包括三个主题——受大型语言模型 (LLM) 启发的统一视觉模型、多模态 LLM 的端到端训练以及将多模态工具与 LLM 链接起来。
图 1.1:语言和视觉/多模态的基础模型开发轨迹图示。在这四个类别中,第一类是任务特定模型,后三类属于基础模型,其中语言和视觉的基础模型分别分为绿色和蓝色块。突出显示了每个类别中模型的一些突出属性。通过比较语言和视觉之间的模型,我们预见到多模态基础模型的过渡遵循类似的趋势:从特定目的的预训练模型,到统一模型和通用助手。然而,需要研究探索来找出最佳配方,这在图中如问号所示,因为多模态 GPT-4 和 Gemini 保持私密。
第一章 引言
1.1什么是多模态基础模型?
随着模型(例如 BERT、GPT 家族、CLIP(Radford et al., 2021)和 DALL-E(Ramesh et al., 2021a))的兴起,人工智能一直在经历范式转变,这些模型基于可以适应广泛下游任务的广泛数据进行训练。他们称这些模型为基础模型,以强调其关键的核心但不完整的特征:研究界方法的同质化和新功能的出现。在本文中,我们重点介绍了多模态基础模型,它继承了斯坦福大学论文(Bommasani et al., 2021)中讨论的基础模型的所有特性,但强调具有处理视觉和视觉语言模态能力的模型。在不断增长的文献中,我们根据多模态基础模型的功能和通用性,在图 1.2 中对多模态基础模型进行了分类。对于每个类别,我们都提供了示例模型,这些模型展示了这些多模态基础模型固有的主要功能。
图 1.2: 本文中多模态基础模型旨在解决的三个代表性问题:视觉理解任务、视觉生成任务和具有语言理解和生成的通用界面。
视觉理解模型(在图 1.2 中以橙色突出显示)
学习一般的视觉表示对于构建视觉基础模型至关重要,因为预训练强大的视觉主干是所有类型的计算机视觉下游任务的基础,从图像级(例如图像分类、检索和字幕)、区域级(例如检测和接地)到像素级任务(例如分割)。
视觉生成模型(在图 1.2 中以绿色突出显示)
最近,由于大规模图像文本数据的出现,已经建立了基础图像生成模型。使之成为可能的技术包括向量量化 VAE 方法、基于扩散的模型和自回归模型。