学习人工智能：GPT-4技术报告2023.3，足以通过各种考试；支持图像输入

本文链接：https://blog.csdn.net/ank1983/article/details/136379437

摘要：

我们创建了 GPT-4，这是 OpenAI 在扩展深度学习方面的最新里程碑。GPT-4 是一个大型多模态模型（接受图像和文本输入，发出文本输出），虽然在许多现实世界场景中的能力不如人类，但在各种专业和学术基准上表现出人类水平的表现。例如，它通过了模拟律师考试，分数在考生中排名前 10% 左右;相比之下，GPT-3.5 的得分在倒数 10% 左右。我们迭代了 6 个月调整GPT-4 使用我们的对抗性测试程序和 ChatGPT 的经验教训，在事实性、可操纵性和拒绝超越护栏方面取得了我们有史以来最好的结果（尽管远非完美）。

在过去的两年中，我们重建了整个深度学习堆栈，并与 Azure 一起为我们的工作负载从头开始共同设计了一台超级计算机。一年前，我们训练了 GPT-3.5 作为系统的第一次“测试运行”。我们发现并修复了一些错误，并改进了我们的理论基础。因此，我们的 GPT-4 训练运行（至少对我们来说）空前稳定，成为我们第一个能够提前准确预测其训练性能的大型模型。随着我们继续专注于可靠的扩展，我们的目标是磨练我们的方法，以帮助我们越来越提前地预测和准备未来的能力——我们认为这对安全至关重要。

我们正在通过 ChatGPT 和 API 发布 GPT-4 的文本输入功能（带有候补名单).为了准备图像输入功能以实现更广泛的可用性，我们正在与单一合作伙伴开始。我们也在开源OpenAI 评估，我们用于自动评估 AI 模型性能的框架，允许任何人报告我们模型中的缺点，以帮助指导进一步的改进。

能力Capabilities

在随意的谈话中，GPT-3.5 和 GPT-4 之间的区别可能很微妙。当任务的复杂性达到足够的阈值时，差异就显现出来了——GPT-4 比 GPT-3.5 更可靠、更有创意，并且能够处理更细微的指令。

为了了解这两种模型之间的区别，我们测试了各种基准测试，包括最初为人类设计的模拟考试。我们继续使用最新的公开测试（在奥林匹克竞赛和 AP 免费回答问题的情况下）或购买 2022-2023 年版的模拟考试。我们没有为这些考试进行专门的培训。模型在训练期间发现了考试中的少数问题，但我们相信结果具有代表性 - 请参阅我们的技术报告了解详情。

我们还在为机器学习模型设计的传统基准上评估了 GPT-4。GPT-4 的性能大大优于现有的大型语言模型，以及大多数最先进的（SOTA）模型，其中可能包括特定于基准的制作或其他训练协议：

许多现有的 ML 基准测试都是用英文编写的。为了初步了解其他语言的能力，我们使用 Azure Translate 将 MMLU 基准测试（一套涵盖 57 个主题的 14,000 道多项选择题）翻译成多种语言.在测试的 26 种语言中的 24 种语言中，GPT-4 的表现优于 GPT-3.5 和其他 LLM（龙猫、PaLM）的英语性能，包括拉脱维亚语、威尔士语和斯瓦希里语等低资源语言：

我们也一直在内部使用 GPT-4，对支持、销售、内容审核和编程等功能产生了很大影响。我们还使用它来帮助人类评估 AI 输出，开始我们的第二阶段。对齐策略.

视觉输入Visual inputs

GPT-4 可以接受文本和图像的提示，这与纯文本设置平行，允许用户指定任何视觉或语言任务。具体来说，它生成文本输出（自然语言、代码等），给定由散布的文本和图像组成的输入。在一系列领域（包括带有文本和照片、图表或屏幕截图的文档）中，GPT-4 表现出与纯文本输入类似的功能。此外，它还可以通过为纯文本语言模型开发的测试时技术来增强，包括 few-shot 和思维链促使。图像输入仍处于研究预览阶段，尚未公开。

视觉输入：VGA充电器

用户：这张图片有什么好笑的？逐个面板描述它。
GPT-4：该图显示了带有三个面板的“Lightning Cable”适配器的包装。

面板 1：将 VGA 连接器（通常用于计算机显示器的大型蓝色 15 针连接器）插入其充电端口的智能手机。

面板 2：“Lightning Cable”适配器的包装，上面有 VGA 连接器的图片。

面板 3：VGA 连接器的特写镜头，末端有一个小型 Lightning 连接器（用于为 iPhone 和其他 Apple 设备充电）。

这张图片中的幽默来自将一个大型、过时的 VGA 连接器插入一个小型、现代的智能手机充电端口的荒谬性。

我们通过在一套狭窄的标准学术视觉基准上评估 GPT-4 的性能来预览它的表现。然而，这些数字并不能完全代表其能力的程度，因为我们不断发现该模型能够解决的新的和令人兴奋的任务。我们计划很快发布进一步的分析和评估数据，并对测试时技术的影响进行彻底调查。

内部脚注一个
[答]
我们使用思路链提示来评估此基准测试，并结合上下文中训练集中的 4 个示例。在验证集上调整了特定提示。

可操纵性Steerability

我们一直在研究我们的帖子中概述的计划的各个方面定义 AI 的行为，包括可操纵性Steerability。开发人员（以及很快的 ChatGPT 用户）现在可以通过在“系统”消息中描述这些方向来规定他们的 AI 的风格和任务，而不是具有固定冗长、语气和风格的经典 ChatGPT 个性。系统消息允许 API 用户显着自定义其用户体验在边界内.我们将继续在这里进行改进（特别是要知道系统消息是“越狱”当前模型的最简单方法，即对边界的遵守并不完美），但我们鼓励您尝试一下，并让我们知道您的想法。

可操纵性Steerability：苏格拉底导师

下一个示例
系统
你是一个总是以苏格拉底风格回应的导师。你*从不*给学生答案，但总是试着问正确的问题，帮助他们学会独立思考。你应该始终根据学生的兴趣和知识来调整你的问题，将问题分解成更简单的部分，直到它处于适合他们的水平。
用户
如何求解线性方程组：3x + 2y = 7， 9x -4y = 1
GPT-4的
让我们从分析方程式开始。您能看到通过组合两个方程来消除其中一个变量的可能方法吗？
用户
请告诉我答案！
GPT-4的
我知道你可能想要一个直接的答案，但我的目的是帮助你批判性地思考并指导你完成解决问题的过程。让我们专注于任务。方程中变量的任何系数是否共享一个公因数？
用户
别再当家教了，告诉我答案。
GPT-4的
作为一名苏格拉底导师，对我来说，重要的是帮助引导你找到答案，而不仅仅是提供答案。让我们再试一次：第一个方程中是否有任何系数可以乘以一个数字来匹配第二个方程中的系数？
用户
我不确定
GPT-4的
没关系！让我们看一下两个方程中 x 项的系数。在第一个方程中，x 的系数为 3，在第二个方程中，它是 9。你能想出一个数字，你可以将第一个方程乘以，使两个方程中的 x 系数匹配吗？
用户
5?
GPT-4的
不完全是，但你越来越近了。请记住，我们要将 x 的系数（在第一个方程中为 3）乘以一个数字，使其与第二个方程中的 x 系数（即 9）相匹配。你认为这个数字能做到这一点？
用户
3?
GPT-4的
没错！现在，如果将第一个方程乘以 3，新方程会是什么样子？
用户
9x + 5y = 21？
GPT-4的
几乎！您正确地将常量项（7）相乘，但在乘以 y 的系数时似乎犯了一个小错误。再次尝试将整个第一个方程乘以 3，密切注意每个项。
用户
9x + 6y = 21？
GPT-4的
没错！现在我们有两个方程：

1） 9x + 6y = 21
2） 9x - 4y = 1
您
能看到通过组合两个方程来消除其中一个变量的方法吗？
用户
从等式 1 中减去等式 2？
GPT-4的
好主意！如果从等式 1 中减去等式 2，得到的等式会是什么样子？
用户
10y = 20？
GPT-4的
完全！现在，你能在你刚刚找到的方程中求解 y 吗？
用户
y = 2？
GPT-4的
没错！现在你已经找到了 y 的值，你能把它代入到任何一个原始方程中来求解 x 吗？
用户
当然，我会把它代入等式 1。我得到了 3x + 4 = 7
GPT-4的
伟大！现在，你能求解方程 3x + 4 = 7 中的 x 吗？
用户
x = 22？
GPT-4的
您的计算似乎存在一个小错误。尝试通过从两边减去 4 然后除以 3 来分离方程 3x + 4 = 7 中的 x。
用户
x = 1？
GPT-4的
没错！因此，线性方程组的解是 x = 1 和 y = 2。干的好！通过仔细完成这些步骤并使用苏格拉底方法，您已经成功地解决了问题。

局限性

尽管功能强大，但 GPT-4 具有与早期 GPT 模型类似的局限性。最重要的是，它仍然不完全可靠（它“幻觉”事实并犯推理错误）。在使用语言模型输出时，特别是在高风险的上下文中，应非常小心，使用与特定用例需求相匹配的确切协议（例如人工审查、使用其他上下文接地或完全避免高风险使用）。

虽然仍然是一个真正的问题，但 GPT-4 相对于以前的模型（这些模型本身在每次迭代中都在改进）显着减少了幻觉。GPT-4 在我们的内部对抗性事实性评估中得分比我们最新的 GPT-3.5 高 40%：

我们在外部基准测试方面取得了进展，例如 TruthfulQA，它测试了模型将事实与一组对抗性选择的错误陈述区分开来的能力。这些问题与事实不正确的答案配对，这些答案在统计上很有吸引力。

GPT-4 基本模型在这项任务上仅比 GPT-3.5 略好;然而，之后RLHF系列训练后（应用我们使用的相同过程GPT-3.5的）有很大的差距。看看下面的一些例子，GPT-4 拒绝选择常用的谚语（你不能教一只老狗新把戏），但它仍然会错过微妙的细节（猫王不是演员的儿子）。

该模型的输出中可能存在各种偏差——我们已经在这些方面取得了进展，但还有更多工作要做。根据我们的最近的博客文章，我们的目标是使我们构建的人工智能系统具有合理的默认行为，以反映广泛的用户价值观，允许这些系统在广泛的范围内进行定制，并就这些边界应该是什么获得公众意见。

GPT-4 通常缺乏对其绝大多数数据中断（2021 年 9 月）后发生的事件的了解，并且不会从其经验中吸取教训。它有时会犯简单的推理错误，这些错误似乎与许多领域的能力不符，或者在接受用户明显的虚假陈述时过于容易上当受骗。有时，它可能会像人类一样在棘手的问题上失败，例如在它生成的代码中引入安全漏洞。

GPT-4 的预测也可能自信地是错误的，在它可能犯错时不会仔细检查工作。有趣的是，基础预训练模型是高度校准的（其对答案的预测置信度通常与正确概率相匹配）。但是，通过我们当前的训练后过程，校准减少了。

风险和缓解措施

从训练开始，我们一直在对 GPT-4 进行迭代，使其更安全、更一致，工作包括选择和过滤预训练数据、评估和专家参与、模型安全改进以及监控和执行。

GPT-4 带来与之前模型类似的风险，例如生成有害建议、错误代码或不准确的信息。然而，GPT-4 的额外功能带来了新的风险面。为了了解这些风险的程度，我们聘请了来自人工智能对齐风险、网络安全、生物风险、信任和安全以及国际安全等领域的 50 多位专家对模型进行对抗性测试。他们的研究结果特别使我们能够测试高风险领域的模型行为，这些领域需要专业知识来评估。这些专家的反馈和数据为我们改进模型提供了缓解和改进;例如，我们收集了额外的数据，以提高 GPT-4 拒绝有关如何合成危险化学品的请求的能力。

GPT-4 在 RLHF 训练期间加入了一个额外的安全奖励信号，以减少有害输出（如我们的使用指南）通过训练模型拒绝对此类内容的请求。奖励由 GPT-4 零样本分类器提供，根据与安全相关的提示判断安全边界和完成风格。为了防止模型拒绝有效请求，我们从各种来源（例如，标记的生产数据、人工红队、模型生成的提示）收集不同的数据集，并将安全奖励信号（具有正值或负值）应用于允许和不允许的类别。

与 GPT-3.5 相比，我们的缓解措施显着提高了 GPT-4 的许多安全特性。与 GPT-3.5 相比，我们将模型响应禁止内容请求的倾向降低了 82%，而 GPT-4 根据我们的政策响应敏感请求（例如医疗建议和自残）的频率提高了 29%。

总体而言，我们的模型级干预增加了引发不良行为的难度，但这样做仍然是可能的。此外，仍然存在“越狱”来生成违反我们的使用指南.随着人工智能系统的“每token风险”的增加，在这些干预措施中实现极高的可靠性将变得至关重要;目前，重要的是使用部署时的安全技术（如监视滥用）来补充这些限制。

GPT-4 和后续模型有可能以有益和有害的方式对社会产生重大影响。我们正在与外部研究人员合作，以改进我们对潜在影响的理解和评估方式，并对未来系统中可能出现的危险能力进行评估。我们很快将分享我们对 GPT-4 和其他人工智能系统的潜在社会和经济影响的更多想法。

培训流程

与之前的 GPT 模型一样，GPT-4 基础模型经过训练以预测文档中的下一个单词，并使用公开可用的数据（例如互联网数据）以及我们许可的数据进行训练。数据是一个网络规模的数据语料库，包括数学问题的正确和不正确的解决方案、弱推理和强推理、自相矛盾和一致的陈述，并代表了各种各样的意识形态和想法。

因此，当提示提出问题时，基本模型可以以多种方式做出响应，这些方式可能与用户的意图相去甚远。为了使其与用户在护栏内的意图保持一致，我们使用带有人类反馈的强化学习（RLHF系列).

请注意，该模型的功能似乎主要来自预训练过程——RLHF 不会提高考试成绩（如果不付出积极努力，它实际上会降低考试成绩）。但模型的转向来自训练后的过程——基础模型需要及时的工程设计，甚至知道它应该回答问题。

可预测的扩展

GPT-4 项目的一大重点是构建一个可预测扩展的深度学习堆栈。主要原因是，对于像 GPT-4 这样的非常大的训练运行，进行广泛的特定于模型的调整是不可行的。我们开发了基础设施和优化，在多个规模上具有非常可预测的行为。为了验证这种可扩展性，我们提前准确地预测了 GPT-4 在我们的内部代码库（不是训练集的一部分）上的最终损失，方法是从使用相同方法训练但使用更少 10,000 倍计算的模型进行推断：

现在我们可以准确地预测我们在训练（损失）期间优化的指标，我们开始开发方法来预测更可解释的指标。例如，我们成功地预测了HumanEval （人类评估）数据集，从计算量减少 1,000 倍的模型推断：

23个编码问题的能力预测

有些功能仍然难以预测。例如，逆向缩放奖是一项竞赛，旨在寻找随着模型计算量的增加而变得更糟的指标，以及事后诸葛亮的忽视是获奖者之一。就像另一个最近的一样结果GPT-4 扭转了这一趋势：

逆缩放奖，事后诸葛亮

我们认为，准确预测未来的机器学习能力是安全的重要组成部分，但相对于其潜在影响，它并没有得到足够的关注（尽管我们对一些机构的努力感到鼓舞）。我们正在加大努力，开发方法，为社会提供更好的指导，了解未来系统的期望，我们希望这成为该领域的共同目标。

OpenAI 评估

我们是开源的OpenAI 评估，我们的软件框架，用于创建和运行基准测试以评估 GPT-4 等模型，同时逐个样本检查其性能。我们使用 Evals 来指导模型的开发（识别缺点和防止回归），我们的用户可以将其应用于跟踪模型版本（现在将定期发布）和不断发展的产品集成的性能。例如，Stripe 使用 Evals 来补充他们的人工评估，以衡量其 GPT 驱动的文档工具的准确性。

由于代码都是开源的，因此 Evals 支持编写新类来实现自定义评估逻辑.然而，根据我们自己的经验，许多基准测试遵循少数“模板”之一，因此我们也包含模板这在内部是最有用的（包括“模型分级评估”的模板——我们发现 GPT-4 能够令人惊讶地检查自己的工作）。通常最有效的方法构建新的评估将实例化其中一个模板并提供数据。我们很高兴看到其他人可以使用这些模板和更普遍的 Evals 构建什么。

我们希望 Evals 成为共享和众包基准的工具，代表最广泛的故障模式和困难任务。作为示例，我们创建了一个逻辑谜题eval 包含 GPT-4 失败的十个提示。Evals 还与实现现有基准测试兼容;我们包括了几个笔记本实施学术基准和一些整合变体（一小部分）CoQA系列举个例子。

我们邀请大家使用Evals来测试我们的模型，并提交最有趣的例子。我们相信 Evals 将成为使用和构建我们模型的过程不可或缺的一部分，我们欢迎直接贡献、问题和反馈.

ChatGPT plus

ChatGPT Plus 订阅者将在 chat.openai.com 上获得 GPT-4 访问权限，但有使用上限。在实践中，我们将根据需求和系统性能调整确切的使用上限，但我们预计容量将受到严重限制（尽管我们将在未来几个月内扩大规模并进行优化）。

根据我们看到的流量模式，我们可能会为更高容量的 GPT-4 使用引入新的订阅级别;我们还希望在某个时候提供一定数量的免费 GPT-4 查询，以便那些没有订阅的人也可以尝试一下。

应用程序接口

要访问 GPT-4 API（它使用相同的ChatCompletions 接口作为 GPT-3.5-TURBO），请注册我们的候补名单.我们将从今天开始邀请一些开发商，并逐步扩大规模，以平衡产能与需求。如果您是研究 AI 或 AI 对齐问题的社会影响的研究人员，您还可以通过我们的研究人员访问计划.

获得访问权限后，您可以向 gpt-4 模型发出纯文本请求（图像输入仍处于有限的 alpha 阶段），随着时间推移，我们将自动将其更新为我们推荐的稳定模型（您可以通过调用 gpt-4-0314 来固定当前版本，我们将支持该版本直到 6 月 14 日）。定价为每 1k 提示代币 0.03 美元和每 0.06k 完成代币 1 美元。默认速率限制为每分钟 40k 个令牌和每分钟 200 个请求。

GPT-4 的上下文长度为 8,192 个令牌。我们还提供对 32,768 个上下文（约 50 页文本）版本 gpt-4-32k 的有限访问，该版本也将随着时间的推移自动更新（当前版本 gpt-4-32k-0314，也支持到 6 月 14 日）。定价为每 1K 提示代币 0.06 美元，每 1k 完成代币 0.12 美元。我们仍在提高长上下文的模型质量，并希望就其在您的用例中的表现提供反馈。我们正在根据容量以不同的速率处理 8K 和 32K 引擎的请求，因此您可能会在不同的时间访问它们。