GPT-4 基本介绍(上)

我们创建了 GPT-4,这是 OpenAI 在扩大深度学习的研究中的最新里程碑。GPT-4 是一个大型多模态模型(图像和文本作为输入,文本作为输出),虽然在许多现实场景中能力不如人类,但在各种专业和学术标准上表现出了人类的水平。例如,它通过了模拟律师考试,分数在考生中排名前 10%; 相比之下,GPT-3.5 的得分在倒数 10% 左右。我们花了 6 个月的时间,利用对抗性测试项目和 ChatGPT 的经验总结,不断迭代校准 GPT-4。在真实性、可操纵性和拒绝跨越边界方面取得了有史以来最好的结果(尽管远不够完美)。

在过去的两年里,我们重建了整个深度学习栈,并与 Azure 一起重新设计了一台超级计算机来满足我们大量的工作需求。一年前,我们训练的GPT-3.5,作为第一个“试运行”的系统,我们发现并修复了一些bug,改进了我们的理论框架。结果是,我们的 GPT-4 训练运行获得了前所未有的稳定(至少对我们而言!),成为我们第一个能够提前准确预测其训练性能的大型模型。我们持续关注可靠的扩展,我们的目标是不断打磨我们的方法论,以帮助我们提前预测和准备越来越超前的能力——我们认为这对安全至关重要。

我们通过ChatGPT 发布了GPT-4的文本输入功能和API。为了准备图像输入功能以实现更广泛的可用性,我们首先与一个合作伙伴密切合作。我们还开源了 OpenAI Evals,这是我们用于自动评估 AI 模型性能的框架,它允许任何人上报模型中的缺陷,以帮助后面进一步的改进。

GPT-4的能力表现

在日常对话中,GPT-3.5 和 GPT-4 之间的区别可能很微妙,差别不易察觉。当任务的复杂性达到足够的阈值时,差异就会显现出来,GPT-4 比 GPT-3.5 更可靠,更有创造力,并且能够处理更细致的指令。

为了了解这两个模型之间的差异,我们对各种基准进行了测试,包括最初为人类设计的模拟考试。我们继续使用最新的公共测试(奥林匹克和 AP 自由答题)或购买 2022-2023 年版本的练习考试。我们没有针对这些考试进行专门的培训。考试中有少数问题在模型训练期间被发现,但我们相信结果具有代表性,详见下图:

我们还在传统的为机器学习模型设计的基准上评估了GPT-4,GPT-4 的性能大大优于现有的大型语言模型,以及大多数最先进的 (SOTA) 模型,其中可能包括基于基准的专门制作或附加训练协议的模型。

许多现有的机器学习标准检查程序都是用英语编写的。为了初步了解其他语言的能力,我们使用 Azure Translate将MMLU基准(涵盖 57 个科目的 14,000 个多项选择题)翻译成多种语言。在测试的 26 种语言中的 24 种语言中,GPT-4 优于 GPT-3.5和其他 LLM(Chinchilla、PaLM),包括拉脱维亚语、威尔士语和斯瓦希里语等小众语言。

我们还在内部使用 GPT-4,对售后、销售、内容审核和编程等功能产生了巨大影响。

我们还使用它来帮助人类评估AI的输出,开启我们调整策略的第二阶段。

视觉输入

GPT-4 可以接受文本和图像输入,这与纯文本设置并行,允许用户指定任何视觉或语言类型任务。具体来说,它根据夹杂这文本和图像的混合输入,生成文本输出(自然语言、代码等)。在一系列领域(包括带有文本和照片、图表或屏幕截图的文档)中,GPT-4 表现出与纯文本输入相当的功能。此外,它可以通过为纯文本语言模型开发的测试时技术(test-time techniques,https://zhuanlan.zhihu.com/p/93641365)进行增强,包括几个镜头和思维链提示。图像输入现在仍旧是开发者预览版本,并不对外开放。

例子:

用户:这张图片有哪些有趣的地方?请逐个描述它。

GPT-4:

该图显示了一根Lightning的有线接口。

图1:将VGA连接器(一种大的蓝色 15 针连接器,通常用于计算机显示器)插入智能手机的充电端口。

图2:“Lightning Cable”适配器的包装,上面有 VGA 连接器的图片。

图3:VGA 连接器的特写,末端有一个小的 Lightning 连接器(用于为 iPhone 和其他 Apple 设备充电)。

这张图片中的幽默表现在,将一个大的、过时的 VGA 连接器插入到一个小的、现代的智能手机充电端口,这显得很荒谬。

我们通过在一套狭窄的标准学术视野基准上的评估,来预览GPT-4的性能。然而,这些数字并不能完全代表它的能力范围,因为我们不断发现该模型能够解决的新的、令人兴奋的任务。我们计划很快发布进一步的分析和评估数据,以及对测试时技术(test-time techniques)效果的调研结果。

可控制性

我们一直在研究关于定义人工智能行为计划的各个方面,包括可控制性。开发人员(以及不久的 ChatGPT 用户)现在可以通过在“系统”信息中描述相应的方向来制定他们的AI风格和任务,而不是具有毫无变化的啰嗦、语气和风格的经典 ChatGPT 个性。系统信息允许 API 用户在一定范围内显示定制他们的用户体验。我们将在这里不断进行改进(并且尤其是知道系统信息是“越狱”的最简单方式,边界的遵守并不那么完美的),我们鼓励您去努力尝试,并让我们知道您的想法。

局限性

尽管 GPT-4 具有强大的功能,但它也具有与早期 GPT 模型类似的局限性。最重要的是,它仍然不完全可靠(它制造“幻觉”的事实和犯推理错误)。使用语言模型输出时应格外小心,特别是在高风险的上下文中,使用确定的与特定用例需求相匹配的协议(例如人工审查,基于额外的上下文,或者混合避免高风险的用例)。

虽然仍然是一个现实问题,但 GPT-4 相对于以前的模型(其本身在每次迭代中都在改进)显着减少了幻觉的问题。在我们的内部对抗性测试评估中,GPT-4 的得分比最新的 GPT-3.5 高 40%。

在九类内部对抗性设计的事实评估中,我们将 GPT-4(绿色)与前三个 ChatGPT 版本进行比较。在所有的类别中,优势明显。准确度为1(100%)意味着模型输出的评估中所有问题的答案与人类理想的答案相一致。

我们在 TruthfulQA 等外部基准测试方面取得了进展,该基准测试模型主要用来测试模型从对抗性选择的一组不正确的陈述中分离事实的能力。这些问题与事实上不正确的答案相结合,这在统计上很有吸引力。

GPT-4 基本模型在这项任务上仅比 GPT-3.5 稍好一些;然而,经过 RLHF 训练(GPT-3.5 也经过相同的训练)后,存在很大差距。

该模型的输出可能存在各种偏差——我们已经在这些方面取得了进展,但仍有很多工作要做。我们的目标是让我们构建的AI系统具有合理的默认行为,反映广泛的用户价值观,允许这些系统在广泛的范围内进行定制,这些范围怎么划分,应该广泛的听取公众意见。

GPT-4 通常缺乏对其绝大多数数据切断(2021 年 9 月)后发生的事件的了解,并且不从中学习经验。它有时会犯一些简单的推理错误,这些错误似乎与跨多个领域的能力不符,或者过于容易接受用户明显的错误陈述。有时,它会像人类一样无法解决难题,例如在自己生成的代码中引入安全漏洞。

GPT-4 的预测也会出错,在可能出错时不进行仔细的检查工作。有趣的是,基本的预训练模型经过了高度校准(其对答案的预测置信度通常与正确的可能性相匹配)。然而,通过我们当前的后训练过程,这种高度校准减弱了。

左图:MMLU 子集上预训练的 GPT-4 模型的校准图。模型对其预测的置信度与正确的可能性相匹配。虚线标记的对角线表示完美的校准。右图:同一MMLU 子集上后训练的 GPT-4 模型的校准图。我们当前的流程对校准有很大影响。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值