探索GPT-4V：大型多模态模型的创新与应用前瞻

大型多模态模型 (Large multimodal models，LMM)
通过视觉理解等多感官技能扩展
大型语言模型 (large language models，LLM)
，以实现更强大的通用智能。在本文中，我们分析最新模型
GPT-4V(ision)
（本报告探讨了具有视觉功能的 GPT-4V(ision)，并将该模型称为 “GPT-4V”，遵循 OpenAI 报告 [95, 94]。我们将该模型的纯文本版本称为 “GPT-4（no vision）” [94]），以加深对 LMM 的理解。分析重点关注 GPT-4V 可以执行的有趣任务，包括测试样本来探究 GPT-4V 功能的质量和通用性、其支持的输入和工作模式，以及提示模型的有效方法。在探索 GPT-4V 的方法中，我们策划和组织了一系列精心设计的定性样本，涵盖各个领域和任务。对这些样本的观察表明，GPT-4V 在处理任意交错的多模态输入方面具有前所未有的能力，并且其功能的通用性共同使 GPT-4V 成为强大的多模态通用系统。此外，GPT-4V 独特的理解输入图像上绘制的视觉标记的能力可以催生新的人机交互方法，例如视觉参考提示（visual referring prompting）。我们在报告最后深入讨论了基于 GPT-4V 的系统的新兴应用场景和未来研究方向。我们希望这一初步探索能够激发未来对下一代多模态任务制定的研究，开发和增强 LMM 解决现实问题的新方法，并更好地理解多模态基础模型。

简介

1.1 动机和概述

大型语言模型 (LLM)
[22,94,27,10,116,50] 的突破在各个领域和任务中表现出了卓越的多功能性和能力。

该领域的下一个发展是大型多模态模型 (LMM)，旨在通过集成多感官技能（multi-sensory skills）来扩展 LLM 的功能，以实现更强大的通用智能。
鉴于视觉在人类感官中的主导地位 [30, 55]，许多 LMM 研究都是从扩展视觉能力开始的。初步研究调查要么微调视觉编码器以与冻结的预训练 LLM [118,6,67,52,39,12,45,150,75,32,139] 保持一致，要么使用视觉语言模型把视觉输入转换为 LLM 可以理解的文本描述 [142,134,124,51,106,135]。
然而，大多数现有模型 [12,45,150,75,32,65] 的模型和数据规模有限，可能限制了各种有趣能力的出现。因此，目前尚不清楚基于最先进的（state-of-the-art，SOTA） LLM （例如 GPT-4（no vision）[94] 和 PaLM [27, 10]）开发的 LMM 的现状和新兴多模态能力如何。
在本文中，我们报告了我们对 GPT-4V（早期版本）的初步探索，GPT-4V 是一种最先进的视觉 LMM，基于 SOTA LLM 构建，并使用大规模多模态数据进行训练。

我们对 GPT-4V 的探索以以下问题为指导：

1) GPT-4V支持哪些输入和工作模式？

多模态模型的通用性不可避免地要求系统能够处理不同输入模态的任意组合。
GPT-4V 在理解和处理输入图像、子图像、文本、场景文本和视觉指针的任意组合方面表现出前所未有的能力。
我们还证明，GPT-4V 很好地支持了 LLM 中观察到的测试时技术，包括指令遵循 [96]、思想链（chain-of-thoughts） [129, 63]、上下文中的小样本学习 [22] 等。

2) GPT-4V 在不同领域和任务上的功能质量和通用性如何？

我们对涵盖广泛领域和任务的查询（query）进行采样，以了解 GPT-4V 的功能，包括开放世界视觉理解、视觉描述、多模态知识、常识、场景文本理解、文档推理、编码、时间推理、抽象推理、情感理解，还有很多。
GPT-4V 在许多实验领域表现出了令人印象深刻的人类水平的能力。

3) 有效使用和提示 GPT-4V 的方法有哪些？

GPT-4V 擅长理解像素空间编辑，例如在输入图像上绘制的视觉指针和场景文本。
受这种功能的启发，我们讨论了“视觉参考提示 (visual referring prompting)”，它直接编辑输入图像来指示感兴趣的任务。
视觉参考提示可以与其他图像和文本提示无缝地一起使用，为说明和示例演示提供细致入微的界面。

4) 未来有哪些有前景的方向？

鉴于 GPT-4V 跨领域和任务的强大能力，我们询问多模态学习以及更广泛的人工智能的下一步是什么。
我们将我们的思考和探索分为两个角度，即需要关注的新兴新颖应用场景和基于 GPT-4V 的系统的未来研究方向。
我们提出我们的初步探索以启发未来的研究。

以上述问题为指导，我们全面整理并列出了我们探索的定性结果。

该报告包含最少的定量基准结果，而是主要包含精选的有趣的定性示例。
尽管不那么严格，但这种设计允许在固定容量下提供涵盖广泛领域、任务、工作模式和提示技术的更全面的分析。
我们相信，这些有组织的探索将激发未来在新兴新颖应用、下一代多模式任务制定以及开发基于 LMM 的先进智能系统方面的工作。

1.2 我们探索 GPT-4V 的方法

本报告的目标
。

评估系统的标准方法是将其与一系列精心设计的数据集进行基准测试，每个数据集代表一个特定的领域和任务。
挑战之一是一些现有的基准可能不再适合评估 LMM。例如，LMM 的图像标题输出比图像标题基准数据集 [24] 中的基本事实要丰富得多，并且包含更详细的描述。
还缺乏有关 GPT-4V 大规模预训练的公开信息，这可能违反某些现有数据集的训练测试设置并使这些基准数据无效。因此，将评估限制在现有的基准和指标上可能会无意中缩小 GPT-4V 的评估范围。
制定下一代评估任务和基准的综合列表将是理想的最终解决方案。然而，由于需要付出巨大的努力，我们将这些留作未来的工作。

本文重点关注使用定性结果来代替定量基准测试，以了解 GPT-4V 的新功能和潜在的新兴用例。

我们的目标是发现并预览 GPT-4V 可能已经具备的功能，尽管这些新颖的功能可能尚不完全可靠。
我们希望这一系列的探索能够激发未来的研究，为下一代多模式任务建立定量基准，使现有基准现代化，进一步提高模型性能和系统可靠性，并在新兴用例中激发创新。
接下来，我们将深入研究探索 GPT-4V 方法的核心设计。

样本选择指导
。

本报告重点介绍定性结果以展示 GPT-4V 的潜在能力，而不是提供全面的定量基准结果。这自然引发了所展示示例的可靠性问题。
本报告中的示例可能需要仔细调整指令以增强 GPT-4V 的相应功能。
应该注意的是，一些复杂的情况可能仅适用于专门设计的提示。因此，所展示的功能可能无法在不同的样本中始终有效。
本报告的主要目的不是仅展示可靠的功能，而是为读者提供我们发现的 GPT-4V 潜在功能的列表，否则这些功能可能会在几次不成功的试验后被忽视。

样本选择以防止训练中仅仅记忆
。

定性报告 [23] 中的一个基本设计考虑因素是仅通过记忆训练样本的响应或根据指令和上下文示例的提示进行有根据的猜测来辨别模型的真实能力。
我们仔细控制输入提示中的图像和文本，以防止它们在 GPT-4V 训练期间被看到。
我们从头开始生成原始文本 query，并尝试使用无法在线访问或时间戳超过 2023 年 4 月的图像。
我们将指出特定样本不符合此标准的情况，例如故意使用来自特定视觉的样本 - 语言数据集。
除了确保样本不可见之外，我们还将理由查询（rationale query）纳入流程中。这些 query 旨在探测模型的推理过程，从而验证 GPT-4V 是否拥有预测功能。

默认工作模式
。

正如后面第 3 节详细介绍的，GPT-4V 在不同的工作模式下都能有效工作，包括带指令的零样本学习、上下文中的少样本学习等。
其中，本报告不是关注上下文中的小样本学习，而是关注零样本指令调优。这种设计是为了防止上下文示例中潜在的信息泄漏。
虽然上下文中的少数示例可以提高性能和可靠性，但它们并不能始终如一地产生新功能。
因此，我们将零样本指定为演示的默认工作模式，并减少上下文示例的使用，以尽量减少示例对评估能力的影响。

1.3 如何阅读本报告？

本报告记录了计算机视觉和视觉语言多模态领域的研究人员对 GPT-4V 的探索。

它主要面向相关学科的研究人员，他们希望获得对 LMM 功能的定性印象并了解其与传统视觉语言模型的区别。
该报告还为那些人工智能或计算机科学可能超出其专业范围的专业人士编写，以帮助他们概念化 LMM 可以在其不同专业领域内提高其熟练程度的方法。

我们围绕指导我们探索的
四个核心问题
概述了该报告。

除了概述和目录之外，我们还提供了图表列表。该列表列举了报告中详细介绍的定性示例，作为帮助读者导航到他们感兴趣的场景的附加工具。

GPT-4V 的输入模式

本节总结了 GPT-4V 支持的输入，即，作为具有纯文本输入的单模态语言模型，可选地仅使用单个图像来获取单个图像-文本对，以及可选地仅使用多个图像输入来获取交错的图像-文本对。接下来我们重点介绍这些不同输入模式下的代表性用例。

2.1 纯文本输入

GPT-4V 强大的语言能力使其能够作为具有纯文本输入的有效单模态语言模型 [35,101,22]。 GPT-4V 仅使用文本进行输入和输出操作，能够执行各种语言和编码任务。我们建议读者参考 GPT-4 技术报告 [94]，全面深入地分析 GPT-4V 的语言和编码能力，以及与GPT-4（无视觉）的比较。

2.2 单个图文对

GPT-4V 是最新的大型多模态模型，以图像和文本作为输入来生成文本输出。

GPT-4V 与现有的通用视觉语言模型 [8, 77, 69, 7, 66, 115, 113, 148, 25, 78, 42, 70, 54, 61, 68, 125, 26, 133, 38, 6, 121, 43, 37, 151, 65] 符合，可以将单个图像文本对或单个图像作为输入来执行各种视觉和视觉语言任务，例如图像识别 [34]、对象定位 [146]、图像标题[24]、视觉问答 [11]、视觉对话 [33]、密集标题 [59] 等等。
我们注意到，图像-文本对中的文本可以用作用于标题的诸如 “描述图像” 之类的指令，也可以用作查询输入（如视觉问答中的问题）。
与现有技术相比，GPT-4V 的卓越智能体现在其显着增强的性能和通用性。第 4 节详细介绍了其在各个领域的多模式能力的综合分析。

2.3 交错的图像文本输入

GPT-4V 处理灵活交错的图像文本输入的能力进一步增强了其通用性。

交错的图像文本输入可以以视觉为中心，例如带有简短问题或说明的多个图像，也可以以文本为中心，例如带有两个插入图像的长网页，或者图像和文本的平衡混合。
这种混合输入模式为各种应用提供了灵活性。例如，它可以计算多个收据图像所缴纳的总税款，如图 1 所示。它还可以处理多个输入图像并提取查询信息。 GPT-4V 还可以有效地关联交错图像文本输入中的信息，例如查找菜单上的啤酒价格、计算啤酒数量以及返回总成本，如图 1 所示。
除了直接应用程序之外，还可以处理交错图像 -文本输入作为上下文小样本学习和其他高级测试时提示技术的基本组成部分，从而进一步提高了 GPT-4V 的通用性。
我们将在下一节（第 3 节）中展示这些有趣的新颖用法。

GPT-4V 的工作模式及提示技术

3.1 遵循文本说明

GPT-4V 的一项独特优势是其通用性，部分是通过其理解和遵循文本指令的强大能力来实现的[96,91,127,104]。

指令提供了一种自然的方式来定义和定制任意视觉语言用例所需的输出文本。图 2 显示了对句子长度和要使用的单词进行限制的图像描述示例。
或者，在输入方面，GPT-4V 可以理解执行具有挑战性任务的详细指令，例如通过提供中间步骤的指令，使 GPT-4V 能够更好地解释抽象推理问题。
从指令中学习新任务的能力在适应各种未见过的应用和任务方面显示出巨大的潜力，如第 9 节所述。
与最近的研究 [6,12,45,150,75,32] 一样，本小节中讨论的指令大多采用文本格式，提供感兴趣任务的语言描述。
我们将在第 3.3 节稍后讨论 GPT-4V 遵循多模式基于示例的指令的独特功能。

此外，我们展示了文本指令如何在塑造 GPT-4V 的响应中发挥重要作用，采用了 LLM 文献 [2, 149] 中采用的两种技术，（i）“约束提示”，以便 GPT-4V 以某种格式响应； (ii) “以良好性能为条件”，明确要求 GPT-4V 具有良好的性能。

约束提示
。

在图3中，我们提示GPT-4V读取图像中的文本并以特定的 JSON 格式返回信息。
尽管 GPT-4V 在从驾驶执照中提取相应信息时出现了一些错误，但响应仅限于文本指令中指定的 JSON 格式。
我们在第 9 节中将这种技术用于某些应用场景。

以性能良好为条件
。

关于 LLM 的一项观察是，LLM 不想成功 [9]。相反，他们想要模仿具有一系列性能品质的训练集。
如果用户希望成功完成分配给模型的任务，则用户应该明确提出要求，这已被证明对提高 LLM 的性能很有用 [149]。在 LMM 的背景下，我们也有类似的观察结果。
在图 4 中，我们比较了模型对不同计数文本指令的响应。我们从一个简单明了的提示开始：“数一下图像中苹果的数量。” 然而，GPT-4V 错误地计算出图像中总共有 12 个苹果。
为了提高其性能，我们通过添加短语 “让我们逐步思考” 来探索 [63] 中用于 LLM 的零样本思想链的使用。尽管 GPT-4V 的预测步数总体上是正确的，但对最终计数没有多大帮助，因为它仍然得出“12 个苹果”的错误答案。
接下来，我们将指令修改为 “让我们逐行数苹果”，这与视觉输入更相关。虽然 GPT-4V 提供了正确的总计数，但它在计算第二/第三行时会出错。
当我们进一步将指令扩展为 “先数一共有多少行苹果，然后数每行的苹果，最后相加得到总数” 时，最终答案与正确答案的偏差就更大了（15 对比 11)。
最后，模仿在 [149] 中用于 LLM 的 “让我们一步一步地解决这个问题，以确保我们得到正确的答案。” ，我们设计了如下提示：“你是计算图像中事物的专家。让我们逐行数一下下图中苹果的数量，以确保我们得到正确的答案。” 我们提示中的第一句话要求 GPT-4V 承担计数专家的角色，第二句话明确指示 GPT-4V 成功。通过这种设计，GPT-4V 成功返回每行的正确答案以及总计数。
在整篇论文中，我们在各种场景中都采用了这种技术，以获得更好的性能。

3.2 视觉指针和视觉参考提示

（visual referring prompting）

指针是人与人交互的一个基本方面 [84]。

为了提供可比较的交互渠道，研究了各种形式的 “指针” 来指代任意感兴趣的空间区域。例如，如图 5 所示，“指针” 可以表示为数字空间坐标（例如框坐标和图像裁剪），或覆盖在图像像素上的视觉标记（例如箭头、框、圆圈和手绘图）。
我们观察到 GPT-4V 在理解直接绘制在图像上的视觉指针方面特别强。鉴于在图像上绘图的灵活性，此功能可以用作未来野外人机交互的自然方法[85,110,150]。
为此，我们探索了一种名为
视觉参考提示（visual referring prompting）
的新提示方法，人们可以编辑输入图像的像素空间来指定所需的目标，例如绘制视觉指针或手写场景文本。
如图 6 所示，视觉参考提示会编辑图像像素，而不是传统的文本提示，以执行感兴趣的任务。例如，它可以是一个简单的基础描述，重点描述所指出的对象，同时保持对全局图像上下文的理解，如图 6 (1,2) 所示。
视觉参考提示还支持其他新颖的用例，例如将指针的对象与场景文本中写入的索引相关联（图 6 (3)），或者解决在查询的边缘或角度附近提出的问题（图 6 (4)）。
第 5 节将更详细地讨论视觉引用提示。

最低0.47元/天解锁文章