恐怖的GPT-4到底能做什么，对技术人员有什么影响

最新推荐文章于 2024-09-29 22:27:37 发布

SAPmatinal

最新推荐文章于 2024-09-29 22:27:37 发布

阅读量535

点赞数 1

分类专栏：其他技术文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/SAPmatinal/article/details/129985132

版权

其他技术专栏收录该内容

146 篇文章 1 订阅

订阅专栏

GPT-4是OpenAI的最新模型，支持图像和文本输入，展示出人类水平的性能，尤其在法律考试中。它增强了图像理解，减少了幻觉问题，并通过RLHF强化学习提升安全性。GPT-4还引入了多模态处理，可能预示着未来模型将结合更多感官输入。此外，模型训练和数据规模显著增加，但闭源趋势明显，且SelfInstruct模式成为降低成本的方向。

摘要由CSDN通过智能技术生成

GPT-4是什么

GPT-4（Generative Pre-trained Transformer 4）是 OpenAI 发布的最新 GPT 系列模型。它是一个大规模的多模态模型，可以接受图像和文本输入，产生文本输出。输出任务依旧是一个自回归的单词预测任务，这与外界之前的预期略微不同（预期中 GPT-4 多模态会增加语音、图像、视频、文本多模态输入，输出可能也不局限于文字）。

整体来说，GPT-4 的能力已在各种专业和学术基准上表现出了人类的水平，包括以大约前 10% 的成绩通过模拟律师资格考试。而对于生成式的幻觉、安全问题均有较大的改善；同时因对于图片模态的强大识别能力扩大了 GPT-4 的应用范围。

相比其他GPT模型，

GPT-4在效果层面有哪些显著的改进或新增能力？

GPT-4 毫无疑问是目前最强的文本生成模型。

1）突破纯文字的模态，增加了图像模态的输入，具有强大的图像理解能力。

让人惊奇的是，GPT-4 在4个场景下（4/8）零样本效果超过 fine-tuned 的SOTA

2）支持更长的上下文窗口

如之前外网泄漏图中，GPT-4 存在两个版本。其支持的上下文分别是 8K 和 32K，是 ChatGPT 上下文长度的2倍和8倍，其成本也分别为 ChatGPT 的3倍和7倍。

3）复杂任务处理能力大幅提升

GPT-4 在更复杂、更细微的任务处理上，回答更可靠、更有创意。这在多类考试测验中以及与其他 LLM 的 benchmark 比较中得到。我们也可以从下列3个方面中看到。

4）改善幻觉、安全等局限性

在各类任务上幻觉问题显著减轻，比最新的 GPT-3.5 模型高 40%。同样在安全能力的升级上，GPT-4 明显超出 ChatGPT 和 GPT3.5。

相较于之前 GPT 系列模型，

GPT-4 在训练方式、模型架构上有哪些创新优化？

整体很黑盒，但可以做一些合理的推测如下：

首先，模型参数量估计约为10万到100万亿量级（为作者个人预估，也从另一个角度看出OpenAI定制超算的强大），主要根据 OpenAI 2020 提出的大模型缩放规律：计算预算增加 10 倍，数据集大小应增加约 1.83 倍，模型大小应增加 5.48 倍。

按照下图估计，最右处的灰点极有可能为 ChatGPT（GPT3.5类模型）。图中可以看出 GPT-4 计算量约为 GPT3.5 的1000多倍，则模型容量约为548倍左右，1750亿x548≈100万亿。

其次，GPT-4 模型训练架构加入了图像模态的输入，应与最近微软发布的 KOSMOS-1 类似。即在预训练阶段输入任意顺序的文本和图像，图像经过 Vision Encoder 向量化、文本经过普通 transformer 向量化，两者组成多模的句向量，训练目标仍为 next-word generation。

再者，关于模型训练数据内容和数量，文中提及训练数据中额外增加了包含正误数学问题、强弱推理、矛盾一致陈述及各种意识形态的数据。数据量级同样根据 OpenAI 2020 的缩放率、训练100万亿的模型，数据量是 GPT3.5（45TB数据）的190倍。

最后，GPT-4是从头训练还是在某些基座模型上得来？这暂时无从得知。可以确定的是，它增加了后训练过程，整个过程类似于做 Prompt Engineering，核心是让模型知道如何在相应场景下合适的回答问题。

GPT-4 在生成过程中的逻辑性和准确性上有何改进？

GPT-4 在生成逻辑性和准确性上均取得了进展。需要注意的是，GPT-4 基础模型在这项任务上只比 GPT-3.5 略好一点。然而经过 RLHF 的后训练后，效果才有了较大的改进，后训练整个过程类似于做 Prompt Engineering，核心是让模型知道如何在正确场景下做出合适的回答。

可以看到，GPT-4 相比 GPT3.5 和 Anthropic 优势较明显。但绝对正确率只有60%左右，尚存在较多弊端，并没有从根本上解决这样的问题，也会是后续持续发展的方向。

GPT-4 如何从根本上解决了安全问题？

GPT-4在安全问题上收效显著。针对安全问题，GPT-4的主要解决思路是利用安全相关的 RLHF ，在训练中加入额外的安全奖励信号，奖励由 GPT-4 的 zero-shot 分类器提供，即文中提到的 RBRM（基于规则的奖励模型）方法。它是一系列零样本的GPT-4 分类器。

具体来说，这些分类器接受三种输入：Prompt、Policy model 的输出以及可选的对输出的评估（人工编写）。利用这些不同安全等级的 prompt 进行训练，同时对GPT-4在不安全回复拒绝回答的行为，以及在敏感领域做安全回答作奖励，通过强化学习。最后显著改善安全能力，不安全内容下降82%。敏感领域安全回答比率上升29%。

和 ChatGPT RLHF 的方法类似，Alignment（对齐工作）在此处发挥了较大作用，同时未来也会有持续的发力空间。相比单纯累积模型参数量和数据量的「大力出奇迹」方式，其计算量相对较小。如下图，在 InstructGPT 文献中，加入RLHF 的1.3B模型，在整体胜出率上，超出了 175B 的微调模型，节省了100倍的成本。