大语言模型(LLM)综述

自从2022年11月ChatGPT发布以来,以GPT-4为首的大语言模型(LLM)成为人工智能领域乃至全领域炙手可热的宠儿,不管是个人还是企业都想成为这波人工智能的弄潮儿。如果你想从方向上把握大语言模型的发展趋势和方向,那么最近的一篇论文《Large Language Models: A Survey》(《大语言模型综述》)值得你花一定的时间阅读。接下来我们来介绍一下这篇论文。

摘要

自2022年11月发布 ChatGPT 以来,大语言模型 (LLM)因其在各种自然语言任务上的出色表现而备受关注。LLM的通用语言理解和生成能力是通过在大量文本数据上训练数十亿个模型参数来获得的,正如Scaling Laws所预测的那样(OpenAI 2020年提出的,Scaling Laws简单的说就是:随着模型大小、数据集大小和用于训练的计算浮点数的增加,模型的性能会提高)。LLM的研究领域虽然是最近才出现的,但正在以许多不同的方式迅速发展。论文回顾了一些最著名的 LLM,包括三个流行的 LLM 家族(GPT、LLaMA、PaLM),并讨论了它们的特点、贡献和局限性。论文还概述了为构建和增强 LLM 而开发的技术。同时调研了LLM 训练、微调和评估准备的流行数据集,回顾了广泛使用的 LLM 评估指标,并在一组代表性基准上比较了几种流行的 LLM 的性能。最后,讨论了开放性挑战和未来的研究方向。

I.介绍

语言建模是一个长期存在的研究课题,可以追溯到 1950 年代,当时 香农(Shannon)将信息论应用于人类语言,在那里他测量了简单的 n-gram语言模型预测或压缩自然语言文本的能力。从那时起,统计语言建模成为许多自然语言理解和生成任务的基础,从语音识别、机器翻译到信息检索。

基于Transformer的大语言模型(LLM)的最新进展,在 Web 规模的文本语料库上进行了预训练,显着扩展了语言模型(LLM)的功能。例如,OpenAI 的 ChatGPT 和 GPT-4不仅可以用于自然语言处理,还可以作为通用任务求解器,为 Microsoft 的 Co-Pilot 系统提供动力,例如,可以遵循人类对复杂新任务的指示,在需要时执行多步推理。因此,LLM 正在成为开发通用人工智能代理或通用人工智能(AGI)的基本构建块。

随着 LLM 领域的快速发展,在几个月或几周内都会有新的发现、新的模型和新的技术,AI 研究人员和从业者针对他们的任务构建 LLM 驱动的 AI 系统颇具挑战。本论文针对LLMs的最新进展进行了及时的调研。

LLM 是基于神经网络的大规模、预训练的统计语言模型。LLMs最近的成功是语言模型研究和开发积累的结果,可以分为四个具有不同起点和速度的浪潮:统计语言模型,神经语言模型,预训练语言模型和LLM。

统计语言模型(Statistical Language Model,SLM)将文本视为单词序列,并将文本的概率估计为单词概率的乘积。SLM 的主要形式是马尔可夫链模型,称为 n-gram 模型,它计算一个单词的概率,条件是它紧随其后的 n − 1 个单词。由于单词概率是使用从文本语料库收集的单词和 n-gram 计数来估计的,因此该模型需要通过平滑来处理数据稀疏性(即,为看不见的单词或 n-gram 分配零概率),其中模型的一些概率保留给看不见的 n-gram。N-gram模型广泛应用于许多NLP系统。然而,这些模型是不完整的,由于数据稀疏性而无法完全捕捉自然语言的多样性和可变性。

早期的神经语言模型(Neural Language Model)通过将单词映射到低维连续向量(嵌入向量)来处理数据稀疏性并使用神经网络根据其后续单词的嵌入向量的聚合来预测下一个单词。NLM 学习的嵌入向量定义了一个隐藏空间,其中向量之间的语义相似性可以很容易地计算为它们的距离。这为计算任何两个输入的语义相似性打开了大门,无论其形式如何(例如,Web 搜索中的查询与文档、机器翻译中不同语言的句子)或模态(例如,图像标题中的图像和文本)。早期的 NLM 是特定于任务的模型,因为它们是针对特定于任务的数据进行训练的,并且它们学习的隐藏空间是特定于任务的。

与早期的 NLM 不同,预训练语言模型(Pretrained Language Model,PLM)与任务无关。这种普遍性也延伸到学习到的隐藏嵌入空间。PLM 的训练和推理遵循预训练和微调范式,其中具有循环神经网络(RNN)或Transformer的语言模型在网络未标记文本语料库上进行预训练,用于单词预测等常规任务,然后使用少量(标记的)特定任务数据对特定任务进行微调。

大型语言模型(Large Language Model,LLM)主要是指基于Transformer 的神经语言模型,其中包含数百亿到数千亿个参数,这些参数在海量文本数据上进行预训练,如PaLM、LLaMA和GPT-4,如Table III所示。

相比PLM,LLM不仅在模型大小上要大得多,而且还表现出更强的语言理解、生成能力以及更重要的涌现能力(Emergent Abilities)(涌现能力在较小规模的语言模型中不存在)。如Fig.1所示:

这些涌现能力包括

(1)上下文学习(In-Context Learning): LLM 在推理时从Prompt中呈现的一小部分示例中学习新任务。

(2)指令遵循(Instruction Following):LLM 在指令调整后,可以在不使用显式示例的情况下遵循新类型任务的指令。

(3)多步推理(Multi-Steps Reasoning):LLM可以通过将任务分解为中间推理步骤来解决复杂的任务,如思维链提示(Chain of Thought, CoT)。LLM也可以通过使用外部知识和工具来增强(RAG),以便它们能够有效地与用户和环境进行交互,并通过交互收集的反馈数据(例如,通过人类反馈强化学习(RLHF))不断改进自己。

通过高级和增强技术,LLM可以部署为所谓的AI智能体:感知环境,做出决策并采取行动的智能体。以前的研究集中在为特定任务和领域开发智能体。LLM所展示的涌现能力使得基于 LLM 构建通用AI智能体成为可能。虽然 LLM经过训练可以在静态环境中产生响应,但 AI智能体需要采取行动与动态环境进行交互。因此,基于 LLM 的智能体通常需要增强LLM,例如,从外部知识库获取更新信息,验证系统操作是否产生预期结果,以及当事情没有按预期进行时进行处理等。

论文的结构如Fig.2所示:

第II部分概述了 LLM 的最新技术,重点介绍了三个 LLM 家族(GPT、LLaMA 和 PaLM)和其他代表性模型。第III部分讨论了LLM是如何构建的。第IV部分讨论了如何使用 LLM 并针对实际应用进行增强。 第V部分和第VI部分回顾了评估 LLM 的流行数据集和基准,并总结了报告的 LLM 评估结果。最后,第VII部分总结了面临的挑战和未来的研究方向。

II.大语言模型

在本章中首先回顾了早期的预训练神经语言模型,因为它们是 LLM 的基础,然后将讨论重点放在 LLM 的三个家族上:GPT、LlaMA 和 PaLM。Table I概述了其中一些模型及其特点。

A.早期预训练神经语言模型(PLM)

神经网络语言模型是由Bengio率先提出的。他开发了最早可与n-gram模型相媲美的神经语言模型(NLM)之一。然后成功地将NLM应用于机器翻译。Mikolov发布的RNNLM(一个开源NLM工具包)极大地促进了NLM的普及。 之后,基于循环神经网络(RNN)及其变体的NLM,如长短期记忆(LSTM)和门控循环单元(GRU),被广泛用于许多自然语言应用,包括机器翻译、文本生成和文本分类

然后,Transformer 架构的发明标志着 NLM 发展的另一个里程碑。通过应用自注意力(Self Attention)并行计算句子中的每个单词或记录“注意力分数”来模拟每个单词对另一个单词的影响,Transformer 允许比 RNN 更多的并行化,这使得可以利用GPU在大量数据上有效地预训练非常大的语言模型成为可能。这些预训练的语言模型(PLM)可以针对许多下游任务进行微调。

基于 Transformer 的 PLM 根据其神经架构分为三大类:仅编码器(encoder-only)、仅解码器(decoder-only)和编码器-解码器模型(encoder-decoder)。

1)Encoder-only PLMs:顾名思义,仅由编码器网络组成。这些模型最初是为语言理解任务(如文本分类)而开发的,其中模型需要预测输入文本的类标签。代表性的encoder-only型号包括 BERT 及其变体,例如 RoBERTa、ALBERT、DeBERTa、XLM、XLNet、UNILM。

BERT(Bidirectional Encoder Representations from Transformers)是使用最广泛的encoder-only语言模型之一。简单的说BERT模型是填字游戏。BERT 由三个模块组成:

(1)将输入文本转换为嵌入向量序列的嵌入模块

(2)将嵌入向量转换为上下文表示向量的 Transformer 编码器堆栈

(3) 将表示向量(在最后一层)转换为one-hot向量的全连接层

BERT 的预训练使用两个目标:掩码语言建模 (MLM) 和下一句预测。预训练的 BERT 模型可以通过为许多语言理解任务(包括文本分类、问答和推理)添加classifier层来进行微调。BERT 框架的高级概述如Fig 3 所示。

由于 BERT 在发布时显着改进了各种语言理解任务的最新技术,因此 AI 社区受到启发,开发了许多基于 BERT 的类似encoder-only语言模型。

RoBERTa使用一组模型设计选择和训练策略显著提高了 BERT 的鲁棒性,例如修改一些关键的超参数、删除下一句预训练目标以及使用更大的小批量(mini-batches)和学习率(learning rate)进行训练

ALBERT使用两种参数简化技术来降低内存消耗并提高BERT的训练速度:

(1)将嵌入矩阵拆分为两个较小的矩阵

(2)使用在组间拆分的重复层。

DeBERTa(Decoding enhanced BERT with disentangled attention)使用两种新颖的技术改进了BERT和RoBERTa模型。首先是解开注意力的机制,其中每个单词都使用两个向量来表示,分别对其内容和位置进行编码,以及单词间注意力权重分别使用解开的矩阵计算其内容和相对位置。其次,使用增强的掩码器在解码层中加入绝对位置,以预测模型预训练中的掩码标记;此外,还利用一种新的虚拟对抗训练方法进行微调,以提高模型的泛化性。

ELECTRA使用了一种新的预训练任务,称为替换令牌检测(RTD),经验证明它比MLM的采样效率更高。RTD 不是屏蔽输入,而是通过用从小型生成器网络采样的合理替代方案替换一些令牌来破坏它。然后,不是训练一个模型来预测损坏的令牌的原始身份,而是训练一个判别模型来预测损坏的输入中的令牌是否被生成的样本替换。 RTD 比 MLM 的采样效率更高,因为前者是在所有输入令牌上定义的,而不仅仅是被屏蔽的小子集, 如Fig 4 所示。

XLMs使用两种方法将BERT扩展到跨语言语言模型:

(1)仅依赖于单语数据的无监督方法

(2)利用并行数据的监督方法,具有新的跨语言语言模型目标,如图5所示。

XLM 在提出时获得了跨语言分类、无监督和监督机器翻译的最佳结果。

还有一些encoder-only语言模型,它们利用自回归(解码器)模型的优势进行模型训练和推理。两个示例是 XLNet 和 UNILM。XLNet基于 Transformer-XL,使用广义自回归方法进行预训练,该方法通过在因式分解顺序的所有排列最大化预期似然来学习双向上下文。UNILM(UNIfied预训练语言模型)使用三种类型的语言建模任务进行预训练:单向、双向和序列到序列预测。这是通过使用共享的 Transformer 网络并利用特定的自注意力掩码来控制预测的上下文来实现的,如Fig 6 所示。预训练模型可以针对自然语言理解和生成任务进行微调。

2) Decoder-only PLMs:两种使用最广泛的decoder-only PLMs 是由 OpenAI 开发的 GPT-1和 GPT-2。这些模型为随后更强大的 LLM 奠定了基础,即 GPT-3 和 GPT-4。GPT-1首次证明,通过生成式预训练 (GPT) 可以在各种未标记文本语料库中以自监督学习的方式在各种未标记文本上获得良好的性能(预测下一个单词),然后对每个特定的下游任务进行判别性微调(样本要少得多),如Fig 7 所示。

GPT-1为后续的 GPT 模型铺平了道路,每个版本都在架构上进行了改进,并在各种语言任务上实现了更好的性能。简单的说GPT模型是文字接龙游戏。

GPT-2表明,当在由数百万个网页组成的大型 Web文本数据集上进行训练时,语言模型能够在没有任何明确监督的情况下学习执行特定的自然语言任务。GPT-2模型沿用了 GPT-1的模型设计,并进行了一些修改:层归一化移动到每个子块的输入端,在最终的自注意力块之后添加额外的层归一化,修改初始化以考虑残差路径上的累积并缩放残差层的权重,词汇量扩展到 50,25,上下文大小从512个增加到1024个令牌

3)Encoder-decoder PLMs:Raffle等人表明,几乎所有的NLP任务都可以转换为序列到序列的生成任务。因此,Encoder-decoder语言模型在设计上是一个统一的模型,因为它可以执行所有自然语言理解和生成任务。我们将在下面介绍的代表性encoder-decoder PLMs 是 T5、mT5、MASS 和 BART。

T5 是一种文本到文本传输转换器 (T5) 模型,通过引入一个统一的框架,将迁移学习有效地用于 NLP,其中所有 NLP 任务都被转换为文本到文本生成任务。

mT5是 T5 的多语言变体,它在一个新的基于 Common Crawl 的数据集上进行了预训练,该数据集由 101 种语言的文本组成。

MASS(MAsked Sequence to Sequence pre-training)采用encoder-decoder框架,在给定句子剩余部分的情况下重建句子片段。encoder将一个带有随机屏蔽片段(几个连续标记)的句子作为输入,decoder预测屏蔽片段。通过这种方式,MASS分别联合训练encoder和decoder进行语言嵌入和生成。

BART使用标准的序列到序列转换模型架构。它通过使用任意噪声函数破坏文本,然后学习重建原始文本来预先训练。

B. 大型语言模型系列

大型语言模型 (LLM) 主要是指基于 transformer 的 PLM,其中包含数百亿到数千亿个参数。与上面回顾的 PLM 相比,LLM 不仅在模型尺寸上要大得多,而且还表现出更强的语言理解、生成和涌现能力,这是较小规模的模型所没有的。在下文中,我们回顾了三个 LLM 家族:GPT、LLaMA 和 PaLM,如Fig 8 所示。

1)GPT 系列:

生成式预训练转换器 (GPT) 是由 OpenAI 开发的基于解码器的 Transformer 语言模型系列。该系列包括 GPT-1、GPT-2、GPT-3、InstrucGPT、ChatGPT、GPT-4、CODEX 和 WebGPT。虽然早期的 GPT 模型(如 GPT-1 和 GPT-2)是开源的,但最近的模型(如 GPT-3 和 GPT-4)是闭源的,只能通过 API 访问。GPT-1 和 GPT-2 模型已在早期的 PLM 小节中讨论过。接下来从下面的 GPT-3 开始。

GPT-3是一个预训练的自回归语言模型,具有1750亿个参数GPT-3被广泛认为是第一个 LLM,因为它不仅比以前的 PLM 大得多,而且还首次展示了以前小型 PLM 中没有观察到的涌现能力。 GPT3 展示了上下文学习的涌现能力,这意味着 GPT-3可以应用于任何下游任务,而无需任何梯度更新或微调。GPT-3在许多 NLP 任务上取得了强劲的表现,包括翻译、问答和完形填空任务,以及一些需要即时推理或领域适应的任务,例如解读单词、在句子中使用新单词、3位数算术。Fig 9绘制了 GPT-3的性能与上下文提示中示例数量的函数关系。

CODEX,OpenAI 于2023年 3 月发布,是一个通用编程模型,可以解析自然语言并生成代码作为响应。CODEX 是 GPT-3的后代,针对从 GitHub 收集的代码语料库上的应用程序进行微调。CODEX为Microsoft的GitHub Copilot提供支持。

WebGPT是GPT-3 的另一个后代,经过微调,可以使用基于文本的网络浏览器回答开放式问题,方便用户搜索和浏览网络。具体来说,WebGPT 的训练分为三个步骤。首先是让 WebGPT 学习使用人类演示数据模仿人类的浏览行为。然后,奖励函数用来预测人类的偏好。最后,对WebGPT进行细化,通过强化学习和拒绝采样来优化奖励函数。

InstructGPT是通过对人类反馈进行微调,最终让LLM 能够遵循预期的人类指令,使语言模型与用户在各种任务上的意图保持一致。从一组标注编写的prompt和通过 OpenAI API 提交的prompt开始,收集所需模型行为的标注演示数据集。在此数据集上对GPT-3进行微调。然后,基于人类排名模型输出的数据集,通过强化学习进一步微调模型。这就是我们常说的RLHF,如Fig 10所示。

由此产生的 InstructGPT 模型在真实性和减少有毒输出方面均有显著提升,同时在公共 NLP 数据集上的性能回归最小。

LLM 发展最重要的里程碑是2022年11月30日推出的 ChatGPT(聊天生成预训练Transformer)。ChatGPT 是一种聊天机器人,使用户能够引导对话以完成各种任务,例如问答、信息搜索、文本摘要等。ChatGPT 由 GPT-3.5(后来由 GPT-4)提供支持,GPT-4是 InstructGPT 的兄弟模型,经过训练可以遵循提示中的指令并提供详细的响应。

GPT-4是 GPT 家族中最新、最强大的 LLM。GPT-4 于 2023 年 3 月推出,是一个多模态 LLM,因为它可以将图像和文本作为输入并产生文本输出。虽然在一些最具挑战性的现实世界场景中仍然不如人类,但 GPT-4在各种专业和学术基准上表现出人类水平的表现,包括通过模拟律师考试,分数约为前 10% 的考生,如Fig 11 所示。

与早期的 GPT 模型一样,GPT-4 首先经过预训练以预测大型文本语料库上的下一个标记,然后使用 RLHF 进行微调,以使模型行为与人类期望的行为保持一致。

2) LLaMA 系列:LLaMA 是 Meta 发布的基础语言模型集合。与 GPT 模型不同,LLaMA 模型是开源的,即模型权重在非商业许可下发布给研究社区。因此,LLaMA 家族迅速发展,因为这些模型被许多研究小组广泛使用,以开发更好的开源 LLM来与闭源 LLM 竞争,或为关键任务应用程序开发特定于任务的 LLM。

2023年2月发布了第一版LLaMA模型,参数范围从7B到65B不等。这些模型是在数万亿个Tokens上预先训练的,这些Tokens是从公开可用的数据集中收集的。LLaMA 使用 GPT-3的 transformer 架构,并进行了一些小的架构修改,包括

(1)使用SwiGLU 激活函数而不是 ReLU

(2)使用旋转位置嵌入而不是绝对位置嵌入

(3)使用均方根层归一化而不是标准层归一化。

开源 LLaMA-13B 模型在大多数基准测试中都优于专有的 GPT-3 (175B) 模型,使其成为 LLM 研究的良好基准。

2023 年 7 月,Meta 与 Microsoft 合作发布了 LLaMA-2,其中包括基础语言模型和针对对话微调的聊天模型,称为 LLaMA-2 Chat。据报道,LLaMA-2 Chat 模型在许多公共基准测试中优于其他开源模型。Fig 12 显示了 LLaMA-2 Chat 的训练过程。

该过程首先使用公开可用的在线数据预训练 LLaMA-2。然后,通过监督微调构建 LLaMA-2 Chat 的初始版本。随后,使用RLHF、拒绝采样和近端策略优化对模型进行迭代细化。在RLHF阶段,人类反馈的积累对于防止奖励模型变化过大至关重要,以免损害LLaMA模型训练的稳定性。

Alpaca从 LLaMA-7B 模型进行了微调,使用 GPT-3.5(text-davinci-003)以自我指导的方式生成了 52K 指令遵循演示。羊驼在训练方面非常划算,尤其是对于学术研究。在自我指导评估集中,Alpaca 的性能表现与 GPT-3.5相似,尽管 Alpaca 要小得多。

Vicuna 基于ShareGPT 收集的用户共享对话对LLaMA进行微调,开发了一个 13B 聊天模型 Vicuna13B。使用 GPT4 作为评估器,初步评估表明,Vicuna-13B 的质量达到OpenAI 的ChatGPT 和 Google 的 Bard 90% 以上,同时90% 以上的cases优于 LLaMA 和 Stanford Alpaca 等其他模型。Fig 13 显示了 GPT-4对 Vicuna 和其他一些知名模型的生成质量的评价。

Vicuna-13B的另一个优点是其对模型训练的计算需求相对有限。Vicuna-13B 的培训成本仅为 300 美元

与Alpaca和Vicuna一样,Guanaco模型也是使用指令遵循数据进行微调的LLaMA模型。但是,使用 QLoRA 可以非常有效地完成微调,因此可以在单个 48GB GPU 上完成 65B 参数模型的微调。QLoRA 通过冻结的 4 位量化预训练语言模型将梯度反向传播到低秩适配器 (LoRA) 中。最好的 Guanaco 模型优于 Vicuna 基准测试中之前发布的所有模型,达到 ChatGPT 性能水平的 99.3%,而只需要在单个 GPU 上进行 24 小时的微调

Koala是另一种基于 LLaMA 构建的指令遵循语言模型,但特别关注交互数据,包括由功能强大的闭源聊天模型(如 ChatGPT)生成的用户输入和响应。Koala-13B模型根据基于真实世界用户提示的人工评估,与最先进的聊天模型竞争。

Mistral-7B是一个 7B 参数语言模型,旨在实现卓越的性能和效率。Mistral-7B 在所有评估的基准测试中都优于最佳开源 13B 模型 (LLaMA-2-13B),在推理、数学和代码生成方面优于最佳开源 34B 模型 (LLaMA-34B)。该模型利用分组查询注意力来加快推理速度,并利用滑动窗口注意力来有效地处理任意长度的序列,同时降低推理成本

3) PaLM 系列:PaLM(Pathways Language Model)系列由 Google 开发(目前PaLM已经被Gemini取代了)。第一个 PaLM 模型 于 2022 年 4 月发布,并在 2023 年 3 月之前一直保密。它是基于 540B 参数变压器的 LLM。该模型在由 7800 亿个代币组成的高质量文本语料库上进行预训练,这些语料库包含广泛的自然语言任务和用例。PaLM 使用 Pathways 系统在 6144 个 TPU v4 芯片上进行预训练,可在多个 TPU Pod 上实现高效训练。PaLM 通过在数百种语言理解和生成基准上实现最先进的小样本学习结果,展示了扩展的持续优势。PaLM540B不仅在一套多步骤推理任务上优于最先进的微调模型,而且在最近发布的BIG-bench基准测试中也与人类相当。

8B、62B和540B量表的U-PaLM模型在PaLM上使用UL2R进行持续训练,UL2R是一种使用UL2的混合降噪器目标在几个步骤中继续训练LLM的方法。报告的算力节省率约为 2 倍。

U-PaLM后来被指令微调为Flan-PaLM。与上面提到的其他指令微调工作相比,Flan-PaLM 的微调是使用更多的任务、更大的模型大小和CoT数据来执行的。因此,Flan-PaLM 的性能大大优于以前的指令遵循模型。例如,FlanPaLM-540B在1.8K任务上进行了指令微调,其性能大大优于PaLM-540B(平均+9.4%)。微调数据包括 473 个数据集、146 个任务类别和 1,836 个任务总数,如Fig 14 所示。

C. 其他代表性的 LLMs

除了前面小节讨论的模型外,还有一些其他的流行的 LLMs,它们不属于那三个模型家族,但它们已经取得了出色的性能,并推动了 LLMs 领域的发展。我们在这一小节简要描述这些 LLMs。

FLAN: Wei 等人探索了一种简单的方法来提高语言模型的零样本学习能力。他们展示了通过对使用自然语言指令模板描述的数据集集合进行指令调整,可以显著提高模型在未见任务上的零样本性能。他们采用了一个 137B 参数的预训练语言模型,并在超过 60 个 NLP 数据集上进行了指令调整。他们将这个经过指令调整的模型称为 FLAN。图 15 提供了指令调整与预训练-微调和提示的比较。

Gopher: Rae 等人展示了基于 Transformer 的语言模型在各种规模上的性能分析——从参数只有几千万的模型到一个 280 亿参数的模型,称为 Gopher。这些模型在 152 个不同的任务上进行了评估,其中大多数任务都取得了最先进的性能。图 16 显示了不同参数数量的 Gopher 模型的架构细节。

T0: Sanh 等人开发了一个名为 T0 的系统,它可以轻松地将任何自然语言任务映射成人类可读的提示形式。他们将大量带有多个提示的监督数据集,每个提示都有不同的措辞,转换成了提示数据集。然后,开发了一个 T0 编码器-解码器模型来消费文本输入并产生目标响应。该模型在被划分为不同任务的多种 NLP 数据集的多任务混合上进行训练。

ERNIE 3.0: Sun 等人提出了一个名为 ERNIE 3.0 的统一框架,用于预训练大规模知识增强模型。它融合了自回归网络和自编码网络,使得训练出的模型可以很容易地通过零样本学习、少样本学习或微调来定制,以用于自然语言理解和生成任务。他们在由普通文本和大规模知识图谱组成的 4TB 语料库上训练了 ERNIE 3.0,并在图 17 中展示了 Ernie 3.0 的模型架构。

RETRO: 在 [82] 中,Borgeaud 等人通过基于与前面 token 的局部相似性从大语料库中检索文档块来增强自回归语言模型。使用 2 万亿 token 的数据库,Retrieval-Enhanced Transformer (Retro) 在 Pile 上的性能与 GPT-3 和 Jurassic-1 [83] 相当,尽管使用的参数少了 25%。图 18 展示了 Retro 的架构。

GLaM: 在 [84] 中,Du 等人提出了一个名为 GLaM(Generalist Language Model)的 LLM 家族,它们使用稀疏激活的专家混合架构来扩展模型容量,同时也大大减少了与密集变体相比的训练成本。最大的 GLaM 有 1.2 万亿参数,大约是 GPT3 的 7 倍,它消耗的能源只有 GPT-3 的 1/3,并且推理所需的计算 flops 只有一半,同时在 29 个 NLP 任务上实现了更好的零样本、单样本和少样本性能。图 19 展示了 GLaM 的高级架构。

LaMDA: Thoppilan 等人介绍了 LaMDA,这是一个专为对话而设计的基于 Transformer 的神经语言模型家族,参数高达 137B,并且在 1.56T 单词的公共对话数据和网络文本上进行了预训练。

OPT: Zhang 等人介绍了 Open Pre-trained Transformers (OPT),这是一系列从 1.25B 到 175B 参数的解码器-仅预训练变压器,他们与研究人员共享。图 20 展示了不同 OPT 模型的架构细节。

Chinchilla: Hoffmann 等人研究了在给定的计算预算下训练一个变压器语言模型的最佳模型大小和训练 token 的数量。通过在 5 到 5000 亿 token 上训练超过 400 个语言模型,从 7000 万到超过 160 亿参数,他们发现对于计算最优的训练,模型大小和训练 token 的数量应该等比缩放:每当模型大小翻倍时,训练 token 的数量也应该翻倍。他们通过训练一个预测的计算最优模型 Chinchilla 来测试这个假设,该模型使用的计算预算与 Gopher 相同,但参数为 70B,数据量多 4%。

Galactica: Taylor 等人介绍了 Galactica,这是一个可以存储、结合和推理科学知识的大语言模型。他们在包括论文、参考资料、知识库和许多其他来源的大型科学语料库上进行了训练。Galactica 在推理方面表现良好,在数学 MMLU 上的得分比 Chinchilla 高 41.3% 到 35.7%,在 MATH 上的得分为 20.4%,而 PaLM 540B 的得分为 8.8%。

CodeGen: Nijkamp 等人训练并发布了一个高达 16.1B 参数的大型语言模型家族,名为 CodeGen,它在自然语言和编程语言数据上进行了训练,并且开源了 JAXFORMER 训练库。他们展示了所训练模型的实用性,证明了它在零样本 Python 代码生成 HumanEval 上与之前的最先进水平相当。他们进一步调查了程序合成的多步骤范式,其中一个单独的程序被分解成多个提示指定的子问题。他们还构建了一个开放的基准测试,多轮编程基准测试 (MTPB),包括 115 个不同的问题集,它们被分解成多轮提示。

AlexaTM: Soltan 等人展示了多语言大规模序列到序列 (seq2seq) 模型,在各种任务上比仅解码器模型更有效的少样本学习者。他们训练了一个名为 Alexa Teacher Model (AlexaTM 20B) 的 200 亿参数多语言 seq2seq 模型,并且展示了它在单样本摘要任务上实现了最先进的性能,超过了一个更大的 540B PaLM 解码器模型。AlexaTM 包括 46 个编码器层,32 个解码器层,32 个注意力头,和 dmodel = 4096。

Sparrow: Glaese 等人介绍了 Sparrow,这是一个寻求信息的对话代理,旨在通过人类反馈的强化学习进行训练,以比提示语言模型基线更有帮助、更正确、更无害。他们在训练模型时增加了两个新内容,以帮助人类评估代理行为。图 21 显示了 Sparrow 模型的高级管道。

Minerva: Lewkowycz 等人介绍了 Minerva,这是一个在一般自然语言数据上预训练并在技术内容上进一步训练的大型语言模型,以解决以前 LLM 在定量推理(如解决数学、科学和工程问题)上的困难。

MoD: Tay 等人提出了 NLP 中自监督的通用和统一视角,并展示了如何将不同的预训练目标投射到彼此,并且如何在不同目标之间插值可以是有效的。他们提出了一种名为 Mixture-of-Denoisers (MoD) 的预训练目标框架,该框架结合了不同的预训练范式。这个框架被称为 Unifying Language Learning (UL2)。图 22 概述了 UL2 预训练范式。

BLOOM: Scao 等人介绍了 BLOOM,这是一个 176B 参数的开放访问语言模型,它的设计和构建得益于数百名研究人员的合作。BLOOM 是一个仅解码器的 Transformer 语言模型,它在 ROOTS 语料库上进行了训练,该语料库包括 46 种自然语言和 13 种编程语言(总共 59 种)的数据源。图 23 概述了 BLOOM 架构。

GLM: Zeng 等人介绍了 GLM-130B,这是一个 1300 亿参数的双语(英语和中文)预训练语言模型。这是一次尝试,至少与 GPT-3 (davinci) 一样好地开源一个 100B 规模的模型,并揭示这样规模的模型如何成功预训练。

Pythia: Biderman 等人介绍了 Pythia,这是一个包含 16 个 LLMs 的套件,所有这些模型都是在相同的公共数据上进行训练的,并且参数范围从 7000 万到 120 亿参数。我们为每个 16 个模型提供了 154 个检查点的公共访问权限,以及用于下载和重建它们确切训练数据加载器的工具,以便进一步研究。

Orca: Mukherjee 等人开发了 Orca,这是一个 130 亿参数的模型,它学习模仿大型基础模型的推理过程。Orca 从 GPT-4 获得丰富的信号,包括解释追踪;逐步思考过程;以及其他复杂的指令,由 ChatGPT 提供的指导,通过教师协助进行训练。

StarCoder: Li 等人介绍了 StarCoder 和 StarCoderBase。它们是 15.5B 参数模型,具有 8K 上下文长度,通过多查询注意力实现快速批量推理。StarCoderBase 在来自 The Stack 的 35B Python 令牌上进行了微调,从而创建了 StarCoder。他们进行了迄今为止最全面的代码 LLM 评估,并表明 StarCoderBase 胜过了每一个支持多种编程语言的开放代码 LLM,并匹配或胜过了 OpenAI code-cushman-001 模型。

KOSMOS: Huang 等人介绍了 KOSMOS-1,这是一个多模态大型语言模型 (MLLM),它可以感知一般模态,学习上下文(即,少样本),并遵循指令(即,零样本)。具体来说,他们从网络上训练 KOSMOS-1,包括任意交错的文本和图像、图文对和文本数据。实验结果表明,KOSMOS1 在 (i) 语言理解、生成,甚至 OCR-free NLP(直接输入文档图像)上取得了令人印象深刻的性能,(ii) 感知语言任务,包括多模态对话、图像字幕、视觉问题回答,以及 (iii) 视觉任务,如通过文本指令指定的图像识别(分类)。

Gemini: Gemini 团队介绍了一个新的多模态模型家族,这些模型在图像、音频、视频和文本理解方面展现出了有希望的能力。Gemini 家族包括三个版本:Ultra 用于高度复杂的任务,Pro 用于提高性能和可部署性,Nano 用于设备上应用。Gemini 架构建立在 Transformer 解码器之上,并且被训练以支持 32k 上下文长度(通过使用高效的注意力机制)。

其他一些流行的 LLM 框架(或用于高效开发 LLMs 的技术)包括 InnerMonologue [100]、Megatron-Turing NLG [101]、LongFormer [102]、OPT-IML [103]、MeTaLM [104]、Dromedary [105]、Palmyra [106]、Camel [107]、Yalm [108]、MPT [109]、ORCA2 [110]、Gorilla [67]、PAL [111]、Claude [112]、CodeGen 2 [113]、Zephyr [114]、Grok [115]、Qwen [116]、Mamba [30]、Mixtral-8x7B [117]、DocLLM [118]、DeepSeek-Coder [119]、FuseLLM-7B [120]、TinyLlama-1.1B [121]、LLaMA-Pro-8B [122]。

图 24 提供了一些最具代表性的 LLM 框架的概述,以及有助于 LLMs 成功并推动 LLMs 极限的相关研究工作。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值