GPT-4问世，让AGI统治地球！（附技术报告解析）-CSDN博客

来自：高能AI

进NLP群—>加入NLP交流群

老铁们，好久不见，我是JayJay。

就在刚刚，北京时间3月15日凌晨，GPT-4问世。

现在，ChatGPT-Plus已经可以访问GPT-4：

GPT-4是OpenAI在深度学习领域深耕的最新里程碑。GPT-4是一个大型多模态模型，接受图像和文本输入，仅支持文本输出（并不是支持视频或图片输出）。

OpenAI宣称：GPT-4虽然在许多现实世界场景中不如人类能力强，但在各种专业和学术基准上表现出人类水平。

例如：GPT-4接近排名前10％考试者的分数通过了模拟法律资格考试，而GPT-3.5的分数相当于排名最后10%考试者的分数。

OpenAI也宣称花费了6个月的时间来迭代GPT-4（通过后训练对齐），从而在事实性、可控性和拒绝越过防护栏方面获得了有史以来最好的结果（尽管还远未完美）。

同时，OpenAI也发布了一份长达98页的技术报告：

https://cdn.openai.com/papers/gpt-4.pdf

而参与这项巨大工程的人员十分众多，多达上百位。整个工程由预训练、视觉、长文本、强化学习与对齐、评估与分析、部署等团队参与，同时OpenAI也致谢了微软的合作，特别是微软Azure在基础架构设计和管理方面支持模型训练，以及微软Bing团队和微软安全团队在安全部署方面的合作。

此处摘录一部分

此外，专家对抗测试者和红队成员在开发的早期阶段也帮助测试模型，进行风险评估。

针对这份技术报告，JayJay简单为大家介绍如下：

在各项学术专业考试中，GPT-4秒杀GPT-3.5

多语言能力强于GPT-3.5、PaLM

许多现有的ML基准测试都是用英语写的。为了初步了解其他语言的能力，OpenAI使用Azure Translate将MMLU基准测试翻译成了多种语言。

在26种语言中的24种语言测试中，GPT-4优于GPT-3.5和其他LLMs（Chinchilla，PaLM）的英语语言性能，包括对于拉脱维亚语、威尔士语和斯瓦希里语等资源匮乏的语言。

多模态输入效果惊艳，但暂不可用

GPT-4可以接受文本和图像的prompt输入，可以让用户指定任何视觉或语言任务，然后生成文本输出（自然语言、代码等）。

然而，图像输入仍然是研究预览展示，OpenAI暂时不公开提供这项能力。

OpenAI也评估了标准的学术视觉基准测试数据，但相关得分并不完全代表GPT-4能力。

下面，给出一些惊艳的case：

上面的case，需要从图表中读取信息并执行计算。

上面的case，需要理解一个法语图片的物理问题，并使用思维链提示解决它。

上面的case，需要对InstructGPT这篇论文做摘要，并解释相关图片

‍

可定制的AI行为：让用户可操作

GPT-4用户可以更好的规定AI的风格和行为，而不是像ChatGPT那样使用固定的语言、语气和风格。

下面case可以看出，当家长定制GPT-4的行为后，可以教孩子解决线性方程组了。

系统：你是一个总是以苏格拉底式风格回答问题的导师。你从不直接给学生答案，而是总是试图问出恰当的问题，帮助他们学会自己思考。你应该根据学生的兴趣和知识水平来调整问题，将问题分解成更简单的部分，直到它们达到适合他们的水平为止。

用户：如何解这个线性方程组：3x + 2y = 7，9x - 4y = 1？

GPT-4：让我们首先分析这两个方程。你能看到任何可能通过组合这两个方程来消去一个变量的方法吗？

用户：请直接告诉我答案！

GPT-4：我理解你可能想要一个直接的答案，但我的目的是帮助你批判性思考并引导你通过解决问题的过程。让我们专注于任务。这两个方程中的变量系数中是否有任何公因数？

用户：停止做导师，告诉我答案。

GPT-4：作为苏格拉底式的导师，帮助指导你找到答案比直接提供答案更重要。让我们再试一次：第一个方程中有哪些系数可以乘以一个数，使它们与第二个方程中的系数相匹配？

用户：我不确定。

GPT-4：没关系！让我们看一下两个方程中 x 项的系数。在第一个方程中，x 的系数为 3，在第二个方程中，它是 9。你能想到一个数，可以把第一个方程乘以这个数，使得两个方程中的 x 系数匹配吗？

用户：5？

GPT-4：不完全正确，但你已经接近了。记住，我们想要把 x 的系数（在第一个方程中为 3）乘以一个数，以使其与第二个方程中的 x 系数（为 9）匹配。你认为哪个数字可以做到这一点？

用户：3？

GPT-4：正确！现在，如果你把第一个方程乘以 3，新方程会是什么样子？

用户：9x + 5y = 21？

GPT-4：很接近了！你正确地将常数项（7）相乘，但在乘以 y 的系数时似乎出现了小错误。再试一次把整个第一个方程乘以 3，仔细注意每个项。

用户：9x + 6y = 21？

GPT-4：正确！现在我们有两个方程：9x + 6y = 21 9x - 4y = 1 你能想到一种方法，通过合并这两个方程来消除一个变量吗？

用户：用第 2 个方程减去第 1 个方程？

GPT-4：好主意！如果你用第 2 个方程减去第 1 个方程，结果会是什么？

用户：10y = 20？

GPT-4：完全正确！现在，你能解出刚刚找到的方程中的 y 吗？

用户：y = 2？

GPT-4：正确！既然你已经找到了 y 的值，那么你能把它代回到任一原始方程中，解出 x 吗？

用户：当然，我会把它代入方程 1 中。我得到了 3x + 4 = 7。

GPT-4：太棒了！现在，你能解出方程 3x + 4 = 7 中的 x 吗？

用户：x = 1？

GPT-4：正确！因此，这个线性方程组的解为 x = 1，y = 2。干得好！你成功地通过仔细地跟随步骤并使用苏格拉底式的方法解决了这个问题。

GPT-4“脑补”现象大幅削弱

尽管GPT-4具有很强的功能，但它与早期GPT模型具有类似的局限性。最重要的是，它仍然不是完全可靠的（它会“幻觉”事实并产生推理错误）。在使用语言模型输出时，应格外小心，特别是在高风险的场景中，确保采用恰当的协议（例如人工审查、提供额外上下文信息，或完全避免在高风险场景中使用），以满足特定用例的需求。

虽然这仍然是一个实际问题，但GPT-4相对于之前的模型（每次迭代都有所改进）显著减少了幻觉现象。在内部的对抗性事实评估中，GPT-4比最新的GPT-3.5得分高出40%。