缔造ChatGPT与Sora神话的底层大语言模型被这本神作讲透了！

turingbooks

于 2024-03-22 12:14:42 发布

阅读量245

点赞数

文章标签： chatgpt 语言模型人工智能自然语言处理

原文链接：https://mp.weixin.qq.com/s?__biz=MjM5Njc0MjIwMA==&mid=2649812163&idx=2&sn=671d345ae0eb04bfa130609e81d1770f&chksm=bf14c5aa9cd437423748ccf49231ba99207c94f4b0083f03c0ea6592a3bbea7b27ccdc8eea4d&scene=126&sessionid=0

版权

想象这样一个世界：在这个世界里，你可以像和朋友聊天一样快速地与计算机交互。那会是怎样的体验？你可以创造出什么样的应用程序？这正是 OpenAI 努力构建的世界，它通过其 GPT 模型让设备拥有与人类对话的能力。

作为人工智能（artificial intelligence，AI）领域的最新成果，GPT-4 和其他 GPT 模型是基于大量数据训练而成的大语言模型（large language model，LLM），它们能够以非常高的准确性识别和生成人类可读的文本。

以及最近火爆全网的Sora，是基于人工智能文生视频大模型，其背后的技术是在OpenAI的文本（GPT）到图像生成模型DALL-E基础上开发而成的。ChatGPT 与Sora的发布彻底颠覆了我们的想象，真实世界彷佛不存在了一般！

那么，我们普通人，面对技术的门槛，是否就只能望而却步，旁观这波时代洪流？或许也没有那么难！

《大模型应用开发极简入门》这是一本有关大模型应用开发的极简入门手册。为初学者提供了一份清晰、全面的“最小可用知识”，带领大家快速了解 GPT-4 和 ChatGPT 的工作原理及优势，并在此基础上使用流行的 Python 编程语言构建大模型应用。并且只需要懂一点Python就能上手！！

在认识大模型之前，不妨先拆解GPT 模型从 GPT-1 到 GPT-4 的演变历程。

来源 | 《大模型应用开发极简入门：基于GPT-4和ChatGPT》

作者 | [比] 奥利维耶·卡埃朗（Olivier Caelen）[法] 玛丽–艾丽斯·布莱特（Marie-Alice Blete）

译者：何文斯

这些 AI 模型的意义远超简单的语音助手。多亏了 OpenAI 的模型，开发人员现在可以利用自然语言处理（natural language processing，NLP）技术创建应用程序，使其以一种曾经只存在于科幻小说中的方式理解我们的需求。从学习和适应个体需求的创新型客户支持系统，到理解每个学生独特的学习风格的个性化教学工具，GPT-4 和 ChatGPT 打开了一扇门，让人们看见一个充满可能性的全新世界。

GPT-4 和 ChatGPT 究竟是什么？

探索语言模型和 NLP 的基础

作为 LLM，GPT-4 和 ChatGPT 是 NLP 领域中最新的模型类型，NLP 是机器学习和人工智能的一个子领域。在深入研究 GPT-4 和 ChatGPT 之前，有必要了解 NLP 及其相关领域。

AI 有不同的定义，但其中一个定义或多或少已成为共识，即 AI 是一类计算机系统，它能够执行通常需要人类智能才能完成的任务。根据这个定义，许多算法可以被归为 AI 算法，比如导航应用程序所用的交通预测算法或策略类视频游戏所用的基于规则的系统。从表面上看，在这些示例中，计算机似乎需要智能才能完成相关任务。

机器学习（machine learning，ML）是 AI 的一个子集。在 ML 中，我们不试图直接实现 AI 系统使用的决策规则。相反，我们试图开发算法，使系统能够通过示例自己学习。自从在 20 世纪 50 年代开始进行 ML 研究以来，人们已经在科学文献中提出了许多 ML 算法。

在这些 ML 算法中，深度学习（deep learning，DL）算法已经引起了广泛关注。DL 是 ML 的一个分支，专注于受大脑结构启发的算法。这些算法被称为人工神经网络（artificial neural network）。它们可以处理大量的数据，并且在图像识别、语音识别及 NLP 等任务上表现出色。

GPT-4 和 ChatGPT 基于一种特定的神经网络架构，即 Transformer。Transformer 就像阅读机一样，它关注句子或段落的不同部分，以理解其上下文并产生连贯的回答。此外，它还可以理解句子中的单词顺序和上下文意思。这使 Transformer 在语言翻译、问题回答和文本生成等任务中非常有效。图 1-1 展示了以上术语之间的关系。

图 1-1：从 AI 到 Transformer 的嵌套技术集合

NLP 是 AI 的一个子领域，专注于使计算机能够处理、解释和生成人类语言。现代 NLP 解决方案基于 ML 算法。NLP 的目标是让计算机能够处理自然语言文本。这个目标涉及诸多任务，如下所述。

文本分类

将输入文本归为预定义的类别。这类任务包括情感分析和主题分类。比如，某公司使用情感分析来了解客户对其服务的意见。电子邮件过滤是主题分类的一个例子，其中电子邮件可以被归类为“个人邮件”“社交邮件”“促销邮件”“垃圾邮件”等。

自动翻译

将文本从一种语言自动翻译成另一种语言。请注意，这类任务可以包括将代码从一种程序设计语言翻译成另一种程序设计语言，比如从 Python 翻译成 C++。

问题回答

根据给定的文本回答问题。比如，在线客服门户网站可以使用 NLP 模型回答关于产品的常见问题；教学软件可以使用 NLP 模型回答学生关于所学主题的问题。

文本生成

根据给定的输入文本（称为提示词）生成连贯且相关的输出文本。

如前所述，LLM 是试图完成文本生成任务的一类 ML 模型。LLM 使计算机能够处理、解释和生成人类语言，从而提高人机交互效率。为了做到这一点，LLM 会分析大量文本数据或基于这些数据进行训练，从而学习句子中各词之间的模式和关系。

这个学习过程可以使用各种数据源，包括维基百科、Reddit、成千上万本书，甚至互联网本身。在给定输入文本的情况下，这个学习过程使得 LLM 能够预测最有可能出现的后续单词，从而生成对输入文本有意义的回应。

于 2023 年发布的一些现代语言模型非常庞大，并且已经在大量文本上进行了训练，因此它们可以直接执行大多数 NLP 任务，如文本分类、自动翻译、问题回答等。GPT-4 和 ChatGPT 是在文本生成任务上表现出色的 LLM。

LLM 的发展可以追溯到几年前。它始于简单的语言模型，如 n-gram 模型。n-gram 模型通过使用词频来根据前面的词预测句子中的下一个词，其预测结果是在训练文本中紧随前面的词出现的频率最高的词。虽然这种方法提供了不错的着手点，但是 n-gram 模型在理解上下文和语法方面仍需改进，因为它有时会生成不连贯的文本。

为了提高 n-gram 模型的性能，人们引入了更先进的学习算法，包括循环神经网络（recurrent neural network，RNN）和长短期记忆（long short-term memory，LSTM）网络。与 n-gram 模型相比，这些模型能够学习更长的序列，并且能够更好地分析上下文，但它们在处理大量数据时的效率仍然欠佳。

尽管如此，在很长的一段时间里，这些模型算是最高效的，因此在自动翻译等任务中被广泛使用。

理解 Transformer 架构及其在 LLM 中的作用

Transformer 架构彻底改变了 NLP 领域，这主要是因为它能够有效地解决之前的 NLP 模型（如 RNN）存在的一个关键问题：很难处理长文本序列并记住其上下文。换句话说，RNN 在处理长文本序列时容易忘记上下文（也就是臭名昭著的“灾难性遗忘问题”），Transformer 则具备高效处理和编码上下文的能力。

这场革命的核心支柱是注意力机制，这是一个简单而又强大的机制。模型不再将文本序列中的所有词视为同等重要，而是在任务的每个步骤中关注最相关的词。交叉注意力和自注意力是基于注意力机制的两个架构模块，它们经常出现在 LLM 中。Transformer 架构广泛使用了交叉注意力模块和自注意力模块。

交叉注意力有助于模型确定输入文本的不同部分与输出文本中下一个词的相关性。它就像一盏聚光灯，照亮输入文本中的词或短语，并突出显示预测下一个词所需的相关信息，同时忽略不重要的细节。

为了说明这一点，让我们以一个简单的句子翻译任务为例。假设输入文本是这样一个英语句子：Alice enjoyed the sunny weather in Brussels（Alice 很享受布鲁塞尔阳光明媚的天气）。如果目标语言是法语，那么输出文本应该是：Alice a profité du temps ensoleillé à Bruxelles。

在这个例子中，让我们专注于生成法语单词 ensoleillé，它对应原句中的 sunny。对于这个预测任务，交叉注意力模块会更关注英语单词 sunny 和 weather，因为它们都与 ensoleillé 相关。通过关注这两个单词，交叉注意力模块有助于模型为句子的这一部分生成准确的翻译结果，如图 1-2 所示。

图 1-2：交叉注意力模块使模型关注输入文本（英语句子）中的关键部分，以预测输出文本（法语句子）中的下一个单词

自注意力机制是指模型能够关注其输入文本的不同部分。具体到 NLP 领域，自注意力机制使模型能够评估句子中的每个词相比于其他词的重要性。这使得模型能够更好地理解各词之间的关系，并根据输入文本中的多个词构建新概念。

来看一个更具体的例子。考虑以下句子：Alice received praise from her colleagues（Alice 受到同事的赞扬）。假设模型试图理解 her 这个单词的意思。自注意力机制给句子中的每个单词分配不同的权重，突出在这个上下文中与 her 相关的单词。

在本例中，自注意力机制会更关注 Alice 和 colleagues 这两个单词。如前所述，自注意力机制帮助模型根据这些单词构建新概念。在本例中，可能出现的一个新概念是 Alice's colleagues，如图 1-3 所示。

图 1-3：自注意力机制使新概念 Alice's colleagues 得以出现

与 RNN 不同，Transformer 架构具有易于并行化的优势。这意味着 Transformer 架构可以同时处理输入文本的多个部分，而无须顺序处理。这样做可以提高计算速度和训练速度，因为模型的不同部分可以并行工作，而无须等待前一步骤完成。

基于 Transformer 架构的模型所具备的并行处理能力与图形处理单元（graphics processing unit，GPU）的架构完美契合，后者专用于同时处理多个计算任务。由于高度的并行性和强大的计算能力，GPU 非常适合用于训练和运行基于 Transformer 架构的模型。硬件上的这一进展使数据科学家能够在大型数据集上训练模型，从而为开发 LLM 铺平了道路。

Transformer 架构由来自谷歌公司的 Ashish Vaswani 等人在 2017 年的论文“Attention Is All You Need”中提出，最初用于序列到序列的任务，如机器翻译任务。

标准的 Transformer 架构有两个主要组件：编码器和解码器，两者都十分依赖注意力机制。编码器的任务是处理输入文本，识别有价值的特征，并生成有意义的文本表示，称为嵌入（embedding）。解码器使用这个嵌入来生成一个输出，比如翻译结果或摘要文本。这个输出有效地解释了编码信息。

生成式预训练 Transformer（Generative Pre-trained Transformer，GPT）是一类基于 Transformer 架构的模型，专门利用原始架构中的解码器部分。在 GPT 中，不存在编码器，因此无须通过交叉注意力机制来整合编码器产生的嵌入。

也就是说，GPT 仅依赖解码器内部的自注意力机制来生成上下文感知的表示和预测结果。请注意，BERT 等其他一些众所周知的模型基于编码器部分，但本书不涉及这类模型。图 1-4 展示了 NLP 技术的演变历程。

图 1-4：NLP 技术从 n-gram 到 LLM 的演变

解密 GPT 模型的标记化和预测步骤　

GPT 模型接收一段提示词作为输入，然后生成一段文本作为输出。这个过程被称为文本补全。举例来说，提示词可以是 The weather is nice today, so I decided to（今天天气很好，所以我决定），模型的输出则可能是 go for a walk（去散步）。

你可能想知道 GPT 模型是如何根据输入的提示词构建输出文本的。正如你将看到的，这主要是一个概率问题。

当 GPT 模型收到一段提示词之后，它首先将输入拆分成标记（token）。这些标记代表单词、单词的一部分、空格或标点符号。比如，在前面的例子中，提示词可以被拆分成［The, wea, ther, is, nice, today,,, so, I, de, ci, ded, to］。

几乎每个语言模型都配有自己的分词器。截至本书英文版出版之时，GPT-4 的分词器还不可用，不过你可以尝试使用 GPT-3 的分词器。

因为有了注意力机制和 Transformer 架构，LLM 能够轻松处理标记并解释它们之间的关系及提示词的整体含义。Transformer 架构使模型能够高效地识别文本中的关键信息和上下文。

为了生成新的句子，LLM 根据提示词的上下文预测最有可能出现的下一个标记。OpenAI 开发了两个版本的 GPT-4，上下文窗口大小分别为 8192 个标记和 32 768 个标记。

与之前的循环模型不同，带有注意力机制的 Transformer 架构使得 LLM 能够将上下文作为一个整体来考虑。基于这个上下文，模型为每个潜在的后续标记分配一个概率分数，然后选择概率最高的标记作为序列中的下一个标记。在前面的例子中，“今天天气很好，所以我决定”之后，下一个最佳标记可能是“去”。

接下来重复此过程，但现在上下文变为“今天天气很好，所以我决定去”，之前预测的标记“去”被添加到原始提示词中。这个过程会一直重复，直到形成一个完整的句子：“今天天气很好，所以我决定去散步。”这个过程依赖于 LLM 学习从大量文本数据中预测下一个最有可能出现的单词的能力。图 1-5 展示了这个过程。

图 1-5：逐个标记地补全文本，整个过程是迭代式的

GPT 模型简史：从 GPT-1 到 GPT-4

回顾OpenAI 的 GPT 模型从 GPT-1 到 GPT-4 的演变历程。

GPT-1

2018 年年中，就在 Transformer 架构诞生一年后，OpenAI 发表了一篇题为“Improving Language Understanding by Generative Pre-Training”的论文，作者是 Alec Radford 等人。这篇论文介绍了 GPT，也被称为 GPT-1。

在 GPT-1 出现之前，构建高性能 NLP 神经网络的常用方法是利用监督学习。这种学习技术使用大量的手动标记数据。以情感分析任务为例，目标是对给定的文本进行分类，判断其情感是积极的还是消极的。

一种常见的策略是收集数千个手动标记的文本示例来构建有效的分类模型。然而，这需要有大量标记良好的监督数据。这一需求限制了监督学习的性能，因为要生成这样的数据集，难度很大且成本高昂。

在论文中，GPT-1 的作者提出了一种新的学习过程，其中引入了无监督的预训练步骤。这个预训练步骤不需要标记数据。相反，他们训练模型来预测下一个标记。由于采用了可以并行化的 Transformer 架构，预训练步骤是在大量数据上进行的。

对于预训练，GPT-1 模型使用了 BookCorpus 数据集。该数据集包含约 11 000 本未出版图书的文本。BookCorpus 最初由 Yukun Zhu 等人在 2015 年的论文“Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books”中给出，并通过多伦多大学的网页提供。然而，原始数据集的正式版本如今已不能公开访问。

人们发现，GPT-1 在各种基本的文本补全任务中是有效的。在无监督学习阶段，该模型学习 BookCorpus 数据集并预测文本中的下一个词。然而，GPT-1 是小模型，它无法在不经过微调的情况下执行复杂任务。因此，人们将微调作为第二个监督学习步骤，让模型在一小部分手动标记的数据上进行微调，从而适应特定的目标任务。

比如，在情感分析等分类任务中，可能需要在一小部分手动标记的文本示例上重新训练模型，以使其达到不错的准确度。这个过程使模型在初始的预训练阶段习得的参数得到修改，从而更好地适应具体的任务。

尽管规模相对较小，但 GPT-1 在仅用少量手动标记的数据进行微调后，能够出色地完成多个 NLP 任务。GPT-1 的架构包括一个解码器（与原始 Transformer 架构中的解码器类似），具有 1.17 亿个参数。作为首个 GPT 模型，它为更强大的模型铺平了道路。后续的 GPT 模型使用更大的数据集和更多的参数，更好地利用了 Transformer 架构的潜力。

GPT-2

2019 年初，OpenAI 提出了 GPT-2。这是 GPT-1 的一个扩展版本，其参数量和训练数据集的规模大约是 GPT-1 的 10 倍。这个新版本的参数量为 15 亿，训练文本为 40 GB。2019 年 11 月，OpenAI 发布了完整版的 GPT-2 模型。

GPT-2 表明，使用更大的数据集训练更大的语言模型可以提高语言模型的任务处理能力，并使其在许多任务中超越已有模型。它还表明，更大的语言模型能够更好地处理自然语言。

GPT-3

2020 年 6 月，OpenAI 发布了 GPT-3。GPT-2 和 GPT-3 之间的主要区别在于模型的大小和用于训练的数据量。GPT-3 比 GPT-2 大得多，它有 1750 亿个参数，这使其能够捕捉更复杂的模式。此外，GPT-3 是在更广泛的数据集上进行训练的。这包括 Common Crawl（它就像互联网档案馆，其中包含来自数十亿个网页的文本）和维基百科。

这个训练数据集包括来自网站、书籍和文章的内容，使得 GPT-3 能够更深入地理解语言和上下文。因此，GPT-3 在各种语言相关任务中都展示出更强的性能。此外，它在文本生成方面还展示出更强的连贯性和创造力。它甚至能够编写代码片段，如 SQL 查询，并执行其他智能任务。此外，GPT-3 取消了微调步骤，而这在之前的 GPT 模型中是必需的。

然而，GPT-3 存在一个问题，即最终用户提供的任务与模型在训练过程中所见到的任务不一致。我们已经知道，语言模型根据输入文本的上下文来预测下一个标记。这个训练过程不一定与最终用户希望模型执行的任务一致。

此外，增大语言模型的规模并不能从根本上使其更好地遵循用户的意图或指令。像 GPT-3 这样的模型是在互联网数据上进行训练的。尽管数据源经过一定的筛选，但用于训练模型的数据仍然可能包含虚假信息或有问题的文本，比如涉及种族歧视、性别歧视等。因此，模型有时可能说错话，甚至说出有害的话。

2021 年，OpenAI 发布了 GPT-3 模型的新版本，并取名为 InstructGPT。与原始的 GPT-3 基础模型不同，InstructGPT 模型通过强化学习和人类反馈进行优化。这意味着 InstructGPT 模型利用反馈来学习和不断改进。这使得模型能够从人类指令中学习，同时使其真实性更大、伤害性更小。

为了说明区别，我们输入以下提示词：“解释什么是时间复杂度。”两个模型给出的回答如下所述。

标准的 GPT-3 模型给出的回答是：“解释什么是空间复杂度。解释什么是大 O 记法。”
InstructGPT 模型给出的回答是：“时间复杂度用于衡量算法运行和完成任务所需的时间，通常采用大 O 记法表示。它以操作次数来衡量算法的复杂度。算法的时间复杂度至关重要，因为它决定了算法的效率和对更大输入的扩展能力。”

我们可以看到，对于相同的输入，第一个模型无法回答问题（它给出的回答甚至很奇怪），而第二个模型可以回答问题。当然，使用标准的 GPT-3 模型也能够得到所需的回答，但需要应用特定的提示词设计和优化技术。这种技术被称为提示工程（prompt engineering），后文将详细介绍。

从 GPT-3 到 InstructGPT

在题为“Training Language Models to Follow Instructions with Human Feedback”的论文中，OpenAI 的欧阳龙等人解释了 InstructGPT 是如何构建的。

从 GPT-3 模型到 InstructGPT 模型的训练过程主要有两个阶段：监督微调（supervised fine-tuning，SFT）和通过人类反馈进行强化学习（reinforcement learning from human feedback，RLHF）。每个阶段都会针对前一阶段的结果进行微调。也就是说，SFT 阶段接收 GPT-3 模型并返回一个新模型。RLHF 阶段接收该模型并返回 InstructGPT 版本。

根据 OpenAI 的论文，我们重新绘制了一张流程图，如图 1-6 所示。

我们来逐一探讨每个阶段。

在 SFT 阶段中，原始的 GPT-3 模型通过监督学习进行微调（图 1-6 中的步骤 1）。OpenAI 拥有一系列由最终用户创建的提示词。首先，从可用的提示词数据集中随机抽样。然后，要求一个人（称为标注员）编写一个示例来演示理想的回答。

重复这个过程数千次，以获得一个由提示词和相应的理想回答组成的监督训练数据集。最后，使用该数据集微调 GPT-3 模型，以针对用户的提问提供更一致的回答。此时得到的模型称为 SFT 模型。

图 1-6：获取 InstructGPT 模型的步骤（根据欧阳龙等人的图片重新绘制）

RLHF 阶段分为两个子步骤：首先训练奖励模型（图 1-6 中的步骤 2），然后使用奖励模型进行强化学习（图 1-6 中的步骤 3）。

奖励模型的目标是自动为回答给出分数。当回答与提示词中的内容匹配时，奖励分数应该很高；当回答与提示词中的内容不匹配时，奖励分数应该很低。为了训练奖励模型，OpenAI 首先随机选择一个问题，并使用 SFT 模型生成几个可能的答案。

我们稍后将看到，通过一个叫作温度（temperature）的参数，可以针对同一输入生成许多回答。然后，要求标注员根据与提示词的匹配程度和有害程度等标准给这些回答排序。在多次重复此过程后，使用数据集微调 SFT 模型以进行评分。这个奖励模型将用于构建最终的 InstructGPT 模型。

训练 InstructGPT 模型的最后一步是强化学习，这是一个迭代的过程。它从一个初始的生成式模型开始，比如 SFT 模型。然后随机选择一个提示词，让模型给出预测结果，由奖励模型来评估结果。

根据得到的奖励分数，相应地更新生成式模型。这个过程可以在无须人工干预的情况下重复无数次，从而自动、高效地提高模型的性能。

与基础的 GPT-3 模型相比，InstructGPT 模型能够针对用户的提问生成更准确的内容。OpenAI 建议使用 InstructGPT 模型，而非原始版本。

GPT-3.5、Codex 和 ChatGPT

2022 年 3 月，OpenAI 发布了 GPT-3 的新版本。新模型可以编辑文本或向文本中插入内容。它们所用的训练数据截至 2021 年 6 月，OpenAI 称它们比先前的版本更强大。2022 年 11 月底，OpenAI 正式称这些模型为 GPT-3.5 模型。

OpenAI 还提出了 Codex 模型，这是一个在数十亿行代码上进行了微调的 GPT-3 模型。正是它给 GitHub Copilot 这款自动化编程工具赋予了强大的能力，为使用 Visual Studio Code、JetBrains 甚至 Neovim 等许多文本编辑器的开发人员提供了帮助。

然而，Codex 模型在 2023 年 3 月被 OpenAI 弃用。相反，OpenAI 建议用户从 Codex 切换到 GPT-3.5 Turbo 或 GPT-4。与此同时，GitHub 发布了基于 GPT-4 的 Copilot X 版本，其功能比之前的版本多得多。

2022 年 11 月，OpenAI 推出了 ChatGPT，并将其作为一种实验性的对话式模型。该模型经过了微调，采用图 1-6 所示的类似技术，在交互式对话中表现出色。ChatGPT 源自 GPT-3.5 系列，该系列为其开发奠定了基础。

GPT-4

2023 年 3 月，OpenAI 发布了 GPT-4。关于这个新模型的架构，我们知之甚少，因为 OpenAI 提供的信息很少。这是 OpenAI 迄今为止最先进的系统，应该能够针对用户的提问生成更安全、更有用的回答。OpenAI 声称，GPT-4 在高级推理能力方面超越了 ChatGPT。

与 OpenAI GPT 家族中的其他模型不同，GPT-4 是第一个能够同时接收文本和图像的多模态模型。这意味着 GPT-4 在生成输出句子时会考虑图像和文本的上下文。这样一来，用户就可以将图像添加到提示词中并对其提问。

GPT-4 经过了各种测试，它在测试中的表现优于 ChatGPT。比如，在美国统一律师资格考试中，ChatGPT 的得分位于第 10 百分位，而 GPT-4 的得分位于第 90 百分位。国际生物学奥林匹克竞赛的结果也类似，ChatGPT 的得分位于第 31 百分位，GPT-4 的得分则位于第 99 百分位。这个进展令人印象深刻，尤其考虑到它是在不到一年的时间内取得的。

推荐阅读