GPT 和 BERT 系列论文阅读总结

ctrl A_ctrl C_ctrl V

已于 2024-08-01 19:33:40 修改

阅读量887

点赞数 22

分类专栏： # 大模型llm 文章标签：人工智能自然语言处理语言模型深度学习机器学习

于 2024-07-31 21:08:31 首次发布

本文链接：https://blog.csdn.net/qq_43799400/article/details/140819171

版权

大模型llm 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

NLP 和 LLM 领域中著名论文的时间关系：

2017.06，Transformer，Google
2018.06，GPT，OpenAI
2018.10，BERT，Google
2019.02，GPT-2，OpenAI
2020.05，GPT-3，OpenAI
2022.03，Instruct GPT，OpenAI
2024.03，GPT-4，OpenAI

1. GPT

paper: Improving Language Understanding by Generative Pre-Training 《通过生成式预训练提高语言理解能力》

1.1 GPT的目的和任务

NLP中有很多任务，例如文本问答、语义相似性评估和文档分类。尽管存在大量丰富的无标注的文本语料库（unlabeled text），但用于训练上述特定任务的标记数据很少，这使得训练这些模型非常困难。（很好理解，没有高质量的标注数据当然不可能训练出好的模型，那有没有可能利用unlabeled text解决这个问题呢？）

如何解决这个NLP领域的大问题呢？GPT的思路是：

先在大量丰富的 unlabeled text 语料库上预训练（Pre-Training）一个语言模型，然后被其他特定的NLP任务进行针对性的微调（fine-tuning）

其实先 Pre-Training 再 fine-tuning 的思路在计算机视觉领域早就出现了，因为有 ImageNet 这样的大规模数据集，但是NLP的文本标注更困难，且文本包含的信息比图像少，可能需要 10 倍于 ImageNet 规模的数据集才能实现预训练，所以用标记数据 Pre-Training 语言模型是非常困难的。

1.2 GPT的实现

使用 unlabeled text 进行预训练的困难：

不能确定哪个优化目标函数能够适用于所有的下游子任务，毕竟NLP诸多任务的目标函数都是不同的。
如何有效地将预训练模型学到的文本表示传递到下游子任务中，因为NLP诸多任务差别比较大，没有统一的有效的文本表示。

GPT使用 Transformer 模型，其实现流程是 two-stage 的：

第一步：在无标注数据上训练语言模型的初始参数。
第二部：使用相应的有标注数据微调这些参数以适应目标任务。

1.2.1 Unsupervised pre-training

首先回顾一下 Transformer 的 Encoder 和 Decoder 的区别：

Encoder 的 Attention 计算第 i 个元素的特征编码时，可以看到整个序列中的所有元素。
Decoder 使用的是 Mask Attention，计算第 i 个元素的特征编码时，只能看到第 i 个元素之前的序列中的 i-1 个元素。

GPT 的预训练使用的是 Transformer 的 Decoder 模型，包括 12 个 blocks，每层维度为 768，训练集 BooksCorpus 包含 7000 多本各种领域的未出版的书籍。GPT 的预训练其实是自监督训练。因为 GPT是一个标准的语言模型，其预测第 i 个单词时只知道前面 i-1 个单词，不知道后面的单词，所以必须使用 Decoder-only 模型。其目标函数为：

在这里插入图片描述
其中 U= ${U_1,...U_n\}$ 为单词的 token 序列，k 为上下文长度（context window）

这里补充一下语言建模的两种方法：

自回归语言建模（auto regressive）：Transformer Decoder-only 模型，前向(左到右)预测或者反向(右到左)预测，在预测第 i 个词时只能看到前面 i-1 个词或后面 n-i 个词。显然 GPT 就是一种前向自回归语言建模。
自编码语言建模（auto encoder）：Transformer Encoder-only 模型，同时利用了前向和反向预测的优势，在预测时同时读入两个方向的序列，预测第 i 个词时可以同时看到前面 i-1 个词和后面 n-i 个词。因此自编码语言模型天生就是双向的，能获得更好的结果。BERT 就是一种自编码语言建模，是一种完形填空的形式（cloze）。

关于 BERT 和两种语言建模方法可以参考博客【理论篇】是时候彻底弄懂BERT模型了自编码语言建模的优势（知道过去和未来预测现在显然是一个比较简单的任务）决定了 BERT 的效果比 GPT 更好。但自回归语言建模的价值天花板更高，因为通过过去预测现在和未来是一件更难更有价值的事情。所以 OpenAI 不断扩大模型，最终做出了 GPT3 这样影响全球的模型。

1.2.2 Supervised fine-tuning

使用 $L_1(U)$ 作为损失函数训练 GPT 模型后，使用有监督的数据集 $C$ 进行 fine-tuning， $C$ 数据集包含一个 input tokens 序列 ${x^1,...x^m\}$ 和该训练的 label（ $y$ ）。将 input tokens 输入到预训练模型中获得最后一个 transformer block 的输出 $h_l^m$ ，然后将 $h_l^m$ 送到一个额外的参数为 $W_y$ 的全连接层中预测 $y$ ：

在这里插入图片描述
全连接层的目的是将 $h_l^m$ 的维度映射到 $y$ 的维度（比如十分类任务全连接层的输出维度是10），其参数 $W_y$ 是随机初始化的。

Supervised fine-tuning 目标函数为：

在这里插入图片描述
此外作者发现如果将语言模型的目标函数 $L_1(U)$ 也作为 fine-tuning 的目标函数会带来两个好处：

提高有监督模型的泛化能力
加速收敛

所以作者将 fine-tuning 的目标函数改为了 $L_3(C)=L_2(C)+\lambda L_1(C)$

在 fine-tuning 过程中需要引入的额外参数是 $W_y$ 和分隔符（delimiter）的 token embedding

1.2.3 特定任务的输入格式

以往的 fine-tuning 方法往往需要根据特定任务修改预训练模型的网络结构，GPT 为了规避这种弊端，将多种文本连接成一个长序列输入到 Transformer Decoder 中，这种模式化的方法避免了在 fine-tuning 时修改网络结构，这是 GPT 论文的核心创新点之一。

GPT论文中列举了四种下游任务，包括文本分类（N分类）、文本蕴含关系判断（三分类）、文本相似性判断（二分类）、多选题（输入N个答案的置信度）。

在这里插入图片描述

2. BERT

paper: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 《用于自然语言理解的深度双向Transformer》

2.1 BERT的目的和任务

BERT 是一个双向 Transformer 的预训练模型，其主要灵感来源于两个工作的结合：

ELMo：双向 LSTM，用于下游任务时需要对模型架构进行调整，但是 BERT 只需要修改输出层即可。
GPT：单向 Transformer，用于下游任务时也只需要修改输出层即可。

BERT 使用 masked language model（MLM）实现了类似于 cloze task（完形填空）的任务。

2.2 BERT的实现

BERT 的模型是 Transformer Encoder-only 结构，包括两种规模：

BERT base：12 个 blocks，特征维度为 768，head 数为 12，参数量 110M（为了对标GPT）
BERT large：24 个 blocks，特征维度为 1024，head 数为 16，参数量 340M（为了刷榜）

BERT 实验初步证明了在 NLP 中，模型和数据量越来越大的时候，效果会更好。

关于 BERT 的细节部分可以参考博客【理论篇】是时候彻底弄懂BERT模型了

2.2.1 Masked Language Model

为了训练深度双向表示，只需随机屏蔽一定比例的输入 token，然后预测这些被屏蔽的 token；这就是 Masked Language Model，其实就是一种 cloze task（完形填空）。实验中，论文将 WordPiece分词器生成的词元的 15% 随机 mask，具体方式是是将需要 mask 的词随机替换为一个特殊标记 [MASK]。如输入序列长度为1000，则需要随机预测 150 个词。

上述方法是有一些问题的，在训练 BERT 的时候有 15% 的 [MASK] 标记，但在 fine-tuning 时是没有 [MASK] 标记的，二者的数据不对齐。为了将数据对齐，在训练时需要 mask 的 15% 的词元中，将 80% 的词元替换为 [MASK]，10%的词元替换为其他随机单词，10%的词元不做改变。

通过这个实验能看出来，BERT 所谓的“双向”其实是因为 Transformer Encoder 本来就具备双向的能力，并不是 BERT 做了什么结构上的改进，其“双向”能力是通过 cloze task 训练出来的。

2.2.2 Next Sentence Prediction (NSP)

下一句预测 (NSP) 是另一个用于训练BERT模型的任务。NSP是二分类任务，在此任务中，我们输入两个句子两个BERT，然后BERT需要判断第二个句子是否为第一个句子的下一句。

3. GPT-2

paper: Language Models are Unsupervised Multitask Learner 《无监督的多任务学习器》

先看一下故事背景：在使用GPT和BERT时需要 finu-tuning 才能应用于下游任务，并且 finu-tuning 需要使用与任务相匹配的有标签的数据集进行训练，所以其实也没有那么方便，这个根本原因是 GPT和BERT模型的泛化能力一般。

GPT-2 主打的是 zero-shot，做下游任务时候不需要使用数据集训练模型，以达到训练一个模型在任何任务中都能用的目的。

注：多任务学习是指使用多种数据集训练模型（可能需要修改或增加损失函数），使得一个模型适用于多种任务。

3.1 初见 prompt

没错，就是那个 prompt，大模型提示词，在这里第一次出现了！

GPT 和 BERT 微调的时候，输入的文本是需要加各种分隔符的，这会导致预训练的数据和微调的数据格式不同。但是GPT-2 想要实现 zero-shot ，肯定要保证预训练的数据和微调的数据格式是相同的。

以往微调单个任务的目标是学习条件分布 $p (o u tp u t ∣ in p u t)$ ，但一个通用模型应该能够执行许多不同的任务，甚至对于相同的输入，它应该不仅以输入为条件，而且以要执行的任务为条件；因此通用模型的目标是学习 $p (o u tp u t ∣ in p u t, t a s k)$ 。因此 GPT-2 采用了一种灵活的方式，可以将 task、input 和 output 都写完自然语言的形式。比两个例子：

机器翻译训练任务可以写出序列（translate to french, english text, french text）
阅读理解训练任务可以写成序列（answer the question, document, question, answer）

在此后的论文中，序列（translate to french, english text, french text）和（answer the question, document, question, answer）被称为 prompt

3.2 模型结构

GPT-2使用了 800 万个文档（共 40GB）进行训练，模型结构依然是 Transformer 的 Decoder 结构，自回归建模方式。GPT-2不同的模型规格如下，最大 1.5B（15亿）参数：

在这里插入图片描述

GPT-2只是对模型做了几个地方的调整，这些调整更多的是被当作训练时的trick（比如防止多层 block 导致的梯度问题），并不是创新点。

4. GPT-3

paper: Language Models are Few-Shot Learners

GPT-3 包含 175B（1750亿）参数，对于所有的任务，GPT-3都是在没有任何梯度更新或微调的情况下执行的，因为微调需要计算梯度，如此大的模型计算梯度是非常困难的。

那么 GPT-3 如何实现 Few-Shot 且不更新梯度呢？可以分成三步进行理解（以英语翻译法语为例）：

Zero-shot：GPT-2的模式，只输入 (task, input)，输出法语 output

One-shot：除了输入 (task, input)，还在给模型提供 input 之前告诉模型一个英语翻译为法语的示例，即输入 (task, example, input)，输出法语 output

那么为何可以在只提供一个 example 且不更新模型梯度的情况下使模式输出正确的法语翻译呢？

答曰：增加 example 的目的是增加输入的序列长度，使模型在前向推理过程中，通过 Attention 机制处理比较长的序列信息，并从中抽取有用信息，这就是上下文学习。

Few-shot：对 One-shot 的拓展，使输入序列更长，有用信息更多。但更长的序列不一定有用，因为模型不一定能处理特别长的序列，这就是上下文长度限制。

5. Instruct GPT：ChatGPT 的孪生模型

Instruct GPT 是 ChatGPT 的前身（可称为孪生模型），二者的模型结构，训练方式都完全一致，即都是用了 instrcut learning 和 RLHF 训练方法。区别可能就是微调的元模型不同（Instruct GPT 是微调 GPT3，而 ChatGPT 是微调 GPT3.5 ）

5.1 Instruct GPT 的目的和任务

paper：Training language models to follow instructions with human feedback 《使用遵循人类反馈的指令训练语言模型》

背景：使语言模型更大并不能使它们更好地遵循用户的意图。例如，大型语言模型可能会生成不真实的、有害的或对用户毫无帮助的输出。

为了解决上述问题，Instruct GPT 做了两件事情（两次 fine-tuning）：

人工标注了一批数据集，包括问题（prompts）和答案，再使用该数据集对 GPT-3 进行有监督微调；
通过对模型的输出进行人工排序构建一个数据集，在这个数据集上，从人类反馈中通过强化学习（reinforcement learning from human feedback, RLHF）进一步微调模型，使语言模型与用户在各种任务上的意图保持一致，最终得到的模型称为 Instruct GPT。

1.3B 参数的 InstructGPT 的输出优于 175B GPT-3 的输出，并且 InstructGPT 模型在真实性方面有所改进，减少了有害输出的生成。（模型更小，性能更好）

InstructGPT 的最终目的希望语言模型是有帮助的（帮助用户解决任务）、真诚的（不应该编造信息、误导用户）、无害的（不应该对人或社会造成生理上、心理上或社会危害）。

至于为什么要使用强化学习训练 Instruct GPT ，可能因为是 OpenAI 的团队和 Instruct GPT 的合作团队中的一些成员此前主要是研究强化学习的。

5.2 基于RLHF对GPT-3微调过程

RLHF是利用人类的偏好作为奖励信号，对GPT-3进行微调，从而让模型仿照人来生成答案。示意图如下：
在这里插入图片描述

微调包括三个步骤：

收集演示数据，进行有监督微调 SFT（Supervised fine-tuning）：

演示数据：根据prompts（各种各样的问题，如图中所示的“向一个6岁的小孩解释登月”），人类会撰写一系列 demonstrations（演示）作为模型的期望输出，共标注了 13000 组演示数据。
fine-tuning：将 prompts 和人类标注的答案拼成一段话，fine-tuning GPT-3，获得 SFT 模型。其实 SFT 模型已经具有了一些回答问题的能力了，但人工写答案的代价很高，难以覆盖所有的问题，所以该模型的泛化能力还有待提升。

收集对比数据，训练奖励模型（Reward Model, RM）：

对比数据：第一步中的生成式标注代价太大，所以这一步用了更容易廉价的数据标注方式。具体来说，对于模型 model-1 生成的各种 prompts 的答案，标注者对这些输出进行比较和排序（如图中四个回答的排序是 D>C>A=B），共标注了 33000 组对比数据。
使用对比数据集训练奖励模型：奖励模型用于对 SFT 模型生成的答案进行打分，且模型打分的排序与人工标注的排序是一致的。

使用强化学习（RL）微调 SFT 模型，得到 RL 模型（Instruct GPT）：

微调 SFT 模型：将对比数据集的 prompts 输入到 SFT 模型中得到输出，使用第二步训练好的Reward Model 对输出进行打分，通过强化学习来优化 SFT 模型的参数。具体来说，使用 RM 的输出作为标量奖励，使用 PPO 强化学习算法微调监督策略优化该奖励。

步骤 2 和步骤 3 可以不断迭代：收集当前最佳策略的更多比较数据，用于训练新的 Reward Model，然后训练新的策略。

5.3 Reward Model（RM）

模型结构：

Reward Model 是一个回归模型，其输入是 prompt 和 SFT 模型生成的 response，输出是该 response 对应的 score（奖励值）。

Reward Model 是一个使用对比数据集从头开始训练的模型，使用的是 SFT 模型（GPT-3）把最后的 softmax 层换成一个输出维度为 1 的线性层，即输出一个标量。论文使用 GPT-3 6B 而不是 GPT-3 175B 作为 Reward Model，因为 175B 的大模型训练不稳定，其实训练不稳定一直是大模型的痛点。
损失函数：

人工标注的对比数据是 response 的顺序，而不是具体得分，所以需要先将顺序转换为得分。Reward Model采用的损失函数是排序任务中常用的 pairwise ranking loss：

其中 $x$ 表示一个 prompt， $y$ 表示一个 response， $r_\theta(x,y)$ 表示 Reward Model 对于 $(x, y)$ 的输出打分， $\sigma$ 表示 Sigmoid 函数。假设 SFT 模型生成 $K$ 个 response，则共有 $C_K^2$ 对 response。对于其中一对 response 为 ${y_w,y_l\}$ ，假设 $y_w$ 的排序比 $y_l$ 更高。损失函数的目标是最大化排序靠前的 response 和排序靠后的 response 之间的差值。

5.4 Reinforcement learning (RL)

Instruct GPT 使用的 PPO 是一种强化学习算法，也是 OpenAI 的工作。强化学习是一种训练方法，并不是具体模型。PPO 的核心是对下列目标函数使用梯度下降法来微调 SFT 模型：

在这里插入图片描述
关于该目标函数的详细解释可以参考博客 ChatGPT背后的创新之源：InstructGPT的详细解读~

Q：那么为什么要多此一举使用 Reward Model 和 Reinforcement learning 来微调模型，为什么不能使用对比数据集来 SFT 模型呢？
A：因为对比数据集标注的是 response 的排序，而不是 response 的得分；如果直接标注出得分，是可以对模型进行 SFT 的。关于这个解释可以参考视频跟李沐学AI InstructGPT 论文精读第 53 分钟