GPT 和 BERT 系列论文阅读总结

NLP 和 LLM 领域中著名论文的时间关系:

  • 2017.06,Transformer,Google
  • 2018.06,GPT,OpenAI
  • 2018.10,BERT,Google
  • 2019.02,GPT-2,OpenAI
  • 2020.05,GPT-3,OpenAI
  • 2022.03,Instruct GPT,OpenAI
  • 2024.03,GPT-4,OpenAI

1. GPT

paper: Improving Language Understanding by Generative Pre-Training 《通过生成式预训练提高语言理解能力》

1.1 GPT的目的和任务

NLP中有很多任务,例如文本问答、语义相似性评估和文档分类。尽管存在大量丰富的无标注的文本语料库(unlabeled text),但用于训练上述特定任务的标记数据很少,这使得训练这些模型非常困难。(很好理解,没有高质量的标注数据当然不可能训练出好的模型,那有没有可能利用unlabeled text解决这个问题呢?)

如何解决这个NLP领域的大问题呢?GPT的思路是:

先在大量丰富的 unlabeled text 语料库上预训练(Pre-Training)一个语言模型,然后被其他特定的NLP任务进行针对性的微调(fine-tuning)

其实先 Pre-Training 再 fine-tuning 的思路在计算机视觉领域早就出现了,因为有 ImageNet 这样的大规模数据集,但是NLP的文本标注更困难,且文本包含的信息比图像少,可能需要 10 倍于 ImageNet 规模的数据集才能实现预训练,所以用标记数据 Pre-Training 语言模型是非常困难的。

1.2 GPT的实现

使用 unlabeled text 进行预训练的困难:

  • 不能确定哪个优化目标函数能够适用于所有的下游子任务,毕竟NLP诸多任务的目标函数都是不同的。
  • 如何有效地将预训练模型学到的文本表示传递到下游子任务中,因为NLP诸多任务差别比较大,没有统一的有效的文本表示。

GPT使用 Transformer 模型,其实现流程是 two-stage 的:

  • 第一步:在无标注数据上训练语言模型的初始参数。
  • 第二部:使用相应的有标注数据微调这些参数以适应目标任务。

1.2.1 Unsupervised pre-training

首先回顾一下 Transformer 的 Encoder 和 Decoder 的区别:

  • Encoder 的 Attention 计算第 i 个元素的特征编码时,可以看到整个序列中的所有元素。
  • Decoder 使用的是 Mask Attention,计算第 i 个元素的特征编码时,只能看到第 i 个元素之前的序列中的 i-1 个元素。

GPT 的预训练使用的是 Transformer 的 Decoder 模型,包括 12 个 blocks,每层维度为 768,训练集 BooksCorpus 包含 7000 多本各种领域的未出版的书籍。GPT 的预训练其实是自监督训练。因为 GPT是一个标准的语言模型,其预测第 i 个单词时只知道前面 i-1 个单词,不知道后面的单词,所以必须使用 Decoder-only 模型。其目标函数为:

在这里插入图片描述
其中 U= { U 1 , . . . U n } \{U_1,...U_n\} {U1,...Un} 为单词的 token 序列,k 为上下文长度(context window)

这里补充一下语言建模的两种方法:

  • 自回归语言建模(auto regressive):Transformer Decoder-only 模型,前向(左到右)预测 或者 反向(右到左)预测,在预测第 i 个词时只能看到前面 i-1 个词或后面 n-i 个词。显然 GPT 就是一种前向自回归语言建模。
  • 自编码语言建模(auto encoder):Transformer Encoder-only 模型,同时利用了前向和反向预测的优势,在预测时同时读入两个方向的序列,预测第 i 个词时可以同时看到前面 i-1 个词和后面 n-i 个词。因此自编码语言模型天生就是双向的,能获得更好的结果。BERT 就是一种自编码语言建模,是一种完形填空的形式(cloze)。

关于 BERT 和 两种语言建模方法可以参考博客 【理论篇】是时候彻底弄懂BERT模型了 自编码语言建模的优势(知道过去和未来预测现在显然是一个比较简单的任务)决定了 BERT 的效果比 GPT 更好。但自回归语言建模的价值天花板更高,因为通过过去预测现在和未来是一件更难更有价值的事情。所以 OpenAI 不断扩大模型,最终做出了 GPT3 这样影响全球的模型。

1.2.2 Supervised fine-tuning

使用 L 1 ( U ) L_1(U) L1(U) 作为损失函数训练 GPT 模型后,使用有监督的数据集 C C C 进行 fine-tuning, C C C 数据集包含一个 input tokens 序列 { x 1 , . . . x m } \{x^1,...x^m\} {x1,...xm} 和该训练的 label( y y y)。将 input tokens 输入到预训练模型中获得最后一个 transformer block 的输出 h l m h_l^m hlm,然后将 h l m h_l^m hlm 送到一个额外的参数为 W y W_y Wy 的全连接层中预测 y y y

在这里插入图片描述
全连接层的目的是将 h l m h_l^m hlm 的维度映射到 y y y 的维度(比如十分类任务全连接层的输出维度是10),其参数 W y W_y Wy 是随机初始化的。

Supervised fine-tuning 目标函数为:

在这里插入图片描述
此外作者发现如果将语言模型的目标函数 L 1 ( U ) L_1(U) L1(U) 也作为 fine-tuning 的目标函数会带来两个好处:

  • 提高有监督模型的泛化能力
  • 加速收敛

所以作者将 fine-tuning 的目标函数改为了 L 3 ( C ) = L 2 ( C ) + λ L 1 ( C ) L_3(C)=L_2(C)+\lambda L_1(C) L3(C)=L2(C)+λL1(C)

在 fine-tuning 过程中需要引入的额外参数是 W y W_y Wy 和分隔符(delimiter)的 token embedding

1.2.3 特定任务的输入格式

以往的 fine-tuning 方法往往需要根据特定任务修改预训练模型的网络结构,GPT 为了规避这种弊端,将多种文本连接成一个长序列输入到 Transformer Decoder 中,这种模式化的方法避免了在 fine-tuning 时修改网络结构,这是 GPT 论文的核心创新点之一。

GPT论文中列举了四种下游任务,包括文本分类(N分类)、文本蕴含关系判断(三分类)、文本相似性判断(二分类)、多选题(输入N个答案的置信度)。

在这里插入图片描述

2. BERT

paper: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 《用于自然语言理解的深度双向Transformer》

2.1 BERT的目的和任务

BERT 是一个双向 Transformer 的预训练模型,其主要灵感来源于两个工作的结合:

  • ELMo:双向 LSTM,用于下游任务时需要对模型架构进行调整,但是 BERT 只需要修改输出层即可。
  • GPT:单向 Transformer,用于下游任务时也只需要修改输出层即可。

BERT 使用 masked language model(MLM)实现了类似于 cloze task(完形填空)的任务。

2.2 BERT的实现

BERT 的模型是 Transformer Encoder-only 结构,包括两种规模:

  • BERT base:12 个 blocks,特征维度为 768,head 数为 12,参数量 110M(为了对标GPT)
  • BERT large:24 个 blocks,特征维度为 1024,head 数为 16,参数量 340M(为了刷榜)

BERT 实验初步证明了在 NLP 中,模型和数据量越来越大的时候,效果会更好。

关于 BERT 的细节部分可以参考博客 【理论篇】是时候彻底弄懂BERT模型了

2.2.1 Masked Language Model

为了训练深度双向表示,只需随机屏蔽一定比例的输入 token,然后预测这些被屏蔽的 token;这就是 Masked Language Model,其实就是一种 cloze task(完形填空)。实验中,论文将 WordPiece分词器 生成的词元的 15% 随机 mask,具体方式是是将需要 mask 的词随机替换为一个特殊标记 [MASK]。如输入序列长度为1000,则需要随机预测 150 个词。

上述方法是有一些问题的,在训练 BERT 的时候有 15% 的 [MASK] 标记,但在 fine-tuning 时是没有 [MASK] 标记的,二者的数据不对齐。为了将数据对齐,在训练时需要 mask 的 15% 的词元中,将 80% 的词元替换为 [MASK],10%的词元替换为其他随机单词,10%的词元不做改变。

通过这个实验能看出来,BERT 所谓的“双向”其实是因为 Transformer Encoder 本来就具备双向的能力,并不是 BERT 做了什么结构上的改进,其“双向”能力是通过 cloze task 训练出来的。

2.2.2 Next Sentence Prediction (NSP)

下一句预测 (NSP) 是另一个用于训练BERT模型的任务。NSP是二分类任务,在此任务中,我们输入两个句子两个BERT,然后BERT需要判断第二个句子是否为第一个句子的下一句。

3. GPT-2

paper: Language Models are Unsupervised Multitask Learner 《无监督的多任务学习器》

先看一下故事背景:在使用GPT和BERT时需要 finu-tuning 才能应用于下游任务,并且 finu-tuning 需要使用与任务相匹配的有标签的数据集进行训练,所以其实也没有那么方便,这个根本原因是 GPT和BERT模型的泛化能力一般。

GPT-2 主打的是 zero-shot,做下游任务时候不需要使用数据集训练模型,以达到训练一个模型在任何任务中都能用的目的。

注:多任务学习是指使用多种数据集训练模型(可能需要修改或增加损失函数),使得一个模型适用于多种任务。

3.1 初见 prompt

没错,就是那个 prompt,大模型提示词,在这里第一次出现了!

GPT 和 BERT 微调的时候,输入的文本是需要加各种分隔符的,这会导致预训练的数据和微调的数据格式不同。但是GPT-2 想要实现 zero-shot ,肯定要保证预训练的数据和微调的数据格式是相同的。

以往微调单个任务的目标是学习条件分布 p ( o u t p u t ∣ i n p u t ) p(output|input) p(outputinput),但一个通用模型应该能够执行许多不同的任务,甚至对于相同的输入,它应该不仅以输入为条件,而且以要执行的任务为条件;因此通用模型的目标是学习 p ( o u t p u t ∣ i n p u t , t a s k ) p(output|input,task) p(outputinput,task)。因此 GPT-2 采用了一种灵活的方式,可以将 task、input 和 output 都写完自然语言的形式。比两个例子:

  • 机器翻译训练任务可以写出序列(translate to french, english text, french text)
  • 阅读理解训练任务可以写成序列(answer the question, document, question, answer)

在此后的论文中,序列(translate to french, english text, french text) 和 (answer the question, document, question, answer)被称为 prompt

3.2 模型结构

GPT-2使用了 800 万个文档(共 40GB)进行训练,模型结构依然是 Transformer 的 Decoder 结构,自回归建模方式。GPT-2不同的模型规格如下,最大 1.5B(15亿)参数:

在这里插入图片描述

GPT-2只是对模型做了几个地方的调整,这些调整更多的是被当作训练时的trick(比如防止多层 block 导致的梯度问题),并不是创新点。

4. GPT-3

paper: Language Models are Few-Shot Learners

GPT-3 包含 175B(1750亿)参数,对于所有的任务,GPT-3都是在没有任何梯度更新或微调的情况下执行的,因为微调需要计算梯度,如此大的模型计算梯度是非常困难的。

那么 GPT-3 如何实现 Few-Shot 且不更新梯度呢?可以分成三步进行理解(以英语翻译法语为例):

  1. Zero-shot:GPT-2的模式,只输入 (task, input),输出法语 output

        

  1. One-shot:除了输入 (task, input),还在给模型提供 input 之前告诉模型一个 英语翻译为法语的示例,即输入 (task, example, input),输出法语 output

        

那么为何可以在只提供一个 example 且不更新模型梯度的情况下使模式输出正确的法语翻译呢?

答曰:增加 example 的目的是增加输入的序列长度,使模型在前向推理过程中,通过 Attention 机制处理比较长的序列信息,并从中抽取有用信息, 这就是上下文学习。

  1. Few-shot:对 One-shot 的拓展,使输入序列更长,有用信息更多。但更长的序列不一定有用,因为模型不一定能处理特别长的序列,这就是上下文长度限制。

5. Instruct GPT:ChatGPT 的孪生模型

Instruct GPT 是 ChatGPT 的前身(可称为孪生模型),二者的模型结构,训练方式都完全一致,即都是用了 instrcut learning 和 RLHF 训练方法。区别可能就是微调的元模型不同(Instruct GPT 是微调 GPT3,而 ChatGPT 是微调 GPT3.5 )

5.1 Instruct GPT 的目的和任务

paper:Training language models to follow instructions with human feedback 《使用遵循人类反馈的指令训练语言模型》

背景:使语言模型更大并不能使它们更好地遵循用户的意图。例如,大型语言模型可能会生成不真实的、有害的或对用户毫无帮助的输出。

为了解决上述问题,Instruct GPT 做了两件事情(两次 fine-tuning):

  • 人工标注了一批数据集,包括问题(prompts)和答案,再使用该数据集对 GPT-3 进行有监督微调;
  • 通过对模型的输出进行人工排序构建一个数据集,在这个数据集上,从人类反馈中通过强化学习(reinforcement learning from human feedback, RLHF)进一步微调模型,使语言模型与用户在各种任务上的意图保持一致,最终得到的模型称为 Instruct GPT。

1.3B 参数的 InstructGPT 的输出优于 175B GPT-3 的输出,并且 InstructGPT 模型在真实性方面有所改进,减少了有害输出的生成。(模型更小,性能更好)

InstructGPT 的最终目的希望语言模型是有帮助的(帮助用户解决任务)、真诚的(不应该编造信息、误导用户)、无害的(不应该对人或社会造成生理上、心理上或社会危害)。

至于为什么要使用强化学习训练 Instruct GPT ,可能因为是 OpenAI 的团队和 Instruct GPT 的合作团队中的一些成员此前主要是研究强化学习的。

5.2 基于RLHF对GPT-3微调过程

RLHF是利用人类的偏好作为奖励信号,对GPT-3进行微调,从而让模型仿照人来生成答案。示意图如下:
在这里插入图片描述

微调包括三个步骤:

  1. 收集演示数据,进行有监督微调 SFT(Supervised fine-tuning):
  • 演示数据:根据prompts(各种各样的问题,如图中所示的“向一个6岁的小孩解释登月”),人类会撰写一系列 demonstrations(演示)作为模型的期望输出,共标注了 13000 组演示数据。
  • fine-tuning:将 prompts 和人类标注的答案拼成一段话,fine-tuning GPT-3,获得 SFT 模型 。其实 SFT 模型已经具有了一些回答问题的能力了,但人工写答案的代价很高,难以覆盖所有的问题,所以该模型的泛化能力还有待提升。
  1. 收集对比数据,训练奖励模型(Reward Model, RM):
  • 对比数据:第一步中的生成式标注代价太大,所以这一步用了更容易廉价的数据标注方式。具体来说,对于模型 model-1 生成的各种 prompts 的答案,标注者对这些输出进行比较和排序(如图中四个回答的排序是 D>C>A=B),共标注了 33000 组对比数据。
  • 使用对比数据集训练奖励模型:奖励模型用于对 SFT 模型生成的答案进行打分,且模型打分的排序与人工标注的排序是一致的。
  1. 使用强化学习(RL)微调 SFT 模型,得到 RL 模型(Instruct GPT):
  • 微调 SFT 模型:将对比数据集的 prompts 输入到 SFT 模型中得到输出,使用第二步训练好的Reward Model 对输出进行打分,通过强化学习来优化 SFT 模型的参数。具体来说,使用 RM 的输出作为标量奖励,使用 PPO 强化学习算法微调监督策略优化该奖励。

步骤 2 和步骤 3 可以不断迭代:收集当前最佳策略的更多比较数据,用于训练新的 Reward Model,然后训练新的策略。

5.3 Reward Model(RM)

  • 模型结构:

    Reward Model 是一个回归模型,其输入是 prompt 和 SFT 模型生成的 response,输出是该 response 对应的 score(奖励值)。

    Reward Model 是一个使用对比数据集从头开始训练的模型,使用的是 SFT 模型(GPT-3)把最后的 softmax 层换成一个输出维度为 1 的线性层,即输出一个标量。论文使用 GPT-3 6B 而不是 GPT-3 175B 作为 Reward Model,因为 175B 的大模型训练不稳定,其实训练不稳定一直是大模型的痛点。

  • 损失函数:

    人工标注的对比数据是 response 的顺序,而不是具体得分,所以需要先将顺序转换为得分。Reward Model采用的损失函数是排序任务中常用的 pairwise ranking loss:
    在这里插入图片描述
    其中 x x x 表示一个 prompt, y y y 表示一个 response, r θ ( x , y ) r_\theta(x,y) rθ(x,y) 表示 Reward Model 对于 ( x , y ) (x,y) (x,y) 的输出打分, σ \sigma σ 表示 Sigmoid 函数。假设 SFT 模型生成 K K K 个 response,则共有 C K 2 C_K^2 CK2 对 response。对于其中一对 response 为 { y w , y l } \{y_w,y_l\} {yw,yl},假设 y w y_w yw 的排序比 y l y_l yl 更高。损失函数的目标是最大化排序靠前的 response 和排序靠后的 response 之间的差值。

5.4 Reinforcement learning (RL)

Instruct GPT 使用的 PPO 是一种强化学习算法,也是 OpenAI 的工作。强化学习是一种训练方法,并不是具体模型。PPO 的核心是对下列目标函数使用梯度下降法来微调 SFT 模型:

在这里插入图片描述
关于该目标函数的详细解释可以参考博客 ChatGPT背后的创新之源:InstructGPT的详细解读~

Q:那么为什么要多此一举使用 Reward Model 和 Reinforcement learning 来微调模型,为什么不能使用对比数据集来 SFT 模型呢?
A:因为对比数据集标注的是 response 的排序,而不是 response 的得分;如果直接标注出得分,是可以对模型进行 SFT 的。关于这个解释可以参考视频 跟李沐学AI InstructGPT 论文精读 第 53 分钟

6. GPT-4

GPT-4 技术报告:GPT-4 Technical Report

GPT-4 是一个多模态大模型,可以接受图像和文本的输入,输出为文本形式。

GPT-4 的技术报告几乎没有提及任何技术细节,全文在展示结果。

  • 22
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

ctrl A_ctrl C_ctrl V

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值