笔记-《A Survey of Large Language Models》- 2 概述

最新推荐文章于 2024-08-07 15:34:35 发布

L_serein

最新推荐文章于 2024-08-07 15:34:35 发布

阅读量498

点赞数 3

分类专栏：玩转LLM 文章标签：笔记语言模型人工智能

本文链接：https://blog.csdn.net/L_serein/article/details/136957500

版权

玩转LLM 专栏收录该内容

30 篇文章 0 订阅

订阅专栏

2 概述
- 2.1 大语言模型的背景
  - LLM是指包含数千亿（或更多)参数的Transformer 语言模型
  - 本部分将介绍LLM的基本背景，包括扩展法则、涌现能力和关键技术。
  - 大语言模型的扩展法则：LLM大幅度扩展了模型规模、数据规模和总计算量（数量级）。
    - KM扩展法则：(OpenAI 团队)这三个规律是通过拟合模型在不同数据大小（2200万到230亿个token)、模型大小（7.68亿到15亿个非嵌入参数)和训练计算量下的性能得出的。结果表明，模型性能与这三个因素存在着强依赖关系。
    - Chinchilla扩展法则：(Google DeepMind团队) 随着给定计算预算的增加，KM扩展法则更偏向于将更大的预算分配给模型大小，而Chinchilla扩展法则则认为模型大小和数据大小应该以相同的比例增加
  - 大语言模型的涌现能力：
    - 在小型模型中不存在但在大型模型中产生的能力。当规模达到一定水平时，性能显著提高，超出随机水平。
    - 简要介绍了LLM的三种典型涌现能力和具备这种能力的代表性模型：
    - 上下文学习：ICL能力，假设已经为语言模型提供了一个自然语言指令和/或几个任务演示，它可以通过完成输入文本的单词序列的方式来为测试实例生成预期的输出，而无需额外的训练或梯度更新
    - 指令遵循：通过指令微调，LLM能够在没有使用显式示例的情况下遵循新的任务指令，因此它具有更好的泛化能力。
    - 逐步推理：对于小型语言模型而言，通常很难解决涉及多个推理步骤的复杂任务，例如数学问题。然而，通过使用思维链(Chain-of-Thought,.CoT)提示策略[32，LLM可以通过利用包含中间推理步骤的提示机制来解决这类任务，从而得出最终答案。
  - 大语言模型的关键技术：
    - ●扩展：Transformer语言模型存在明显的扩展效应：更大的模型/数据规模和更多的训练计算通常会导致模型能力的提升。然而，需要注意的是，数据扩展应该经过谨慎的清理过程，因为预训练数据的质量在模型能力中起着关键作用。
    - ●训练：分布式训练算法是学习LLM网络参数所必需的，其中通常联合使用各种并行策略。此外，优化技巧对于训练稳定性和模型性能也很重要
    - ●能力引导：作为技术手段，设计合适的任务指令或具体的ICL策略可以激发这些能力。例如，通过包含中间推理步骤，CoT提示已被证明对解决复杂的推理任务有效。此外，我们还可以使用自然语言表达的任务描述对LLM进行指令微调，以提高LLM在未见任务上的泛化能力。
    - ●对齐微调：有必要使LLM与人类价值观保持一致，例如有用性、诚实性和无害性。为此， InstructGPT[61]设计了一种有效的微调方法，使LLM能够按照期望的指令进行操作，其中利用了基于人类反馈的强化学习技术
    - ●工具操作：外部插件（现有或新创建的应用程序)的机制，可以广泛扩展LLM的能力范围。
- 2.2 GPT 系列模型的技术演进
  - 早期探索
    - • GPT-1
      - 2018 年发布
      - 生成式预训练(Generative Pre-Training)
      - 。GPT-1 是基于生成型的、仅解码器的 Transformer 架构开发的,并采用了无监督预训练和有监督微调的混合方法。
      - GPT-1 为 GPT 系列模型建立了核心架构,并确立了对自然语言文本进行建模的基本原则,即预测下一个单词。
    - • GPT-2
      - 将参数规模增加到了 15 亿, 并使用大规模的网页数据集 WebText 进行训练。
      - 旨在通过无监督语言建模来执行任务,而无需使用标记数据进行显式微调。
      - 引入了多任务求解的概率形式,即p(output|input, task)
      - 解决任务的过程可以被视为生成解决方案文本的单词预测问题。
  - 能力飞跃
    - 尽管 GPT-2 旨在成为一个“无监督的多任务学习器” ,但与监督微调的 SOTA 方法相比,其整体性能仍然较差。但 GPT-2 模型规模相对较小,在下游任务中得到了广泛微调,尤其是对话任务 [76, 77]。基于 GPT-2,GPT-3 通过扩展(几乎相同的)生成式预训练架构展现出重要的能力飞跃。
    - • GPT-3
      - 1750 亿
      - GPT-3 的论文正式介绍了 ICL 的概念,它是以小样本或零样本的方式使用 LLM。
      - ICL 可以指导 LLM 理解以自然语言文本的形式给出的任务。
      - 预训练预测给定上下文条件下的后续文本序列,而 ICL 预测正确的任务解决方案,该解决方案可以被格式化为给定任务描述和示范下的文本序列。
      - GPT-3 可以被视为从 PLM 到 LLM 进化过程中的一个重要里程碑。它通过实证证明,将神经网络扩展到大的规模可以大幅增加模型的能力。
  - 能力增强
    - OpenAI 探索了两种主要方法来进一步改进 GPT-3 模型,即使用代码数据进行训练以及与人类偏好的对齐
    - • 使用代码数据进行训练:
      - GPT-3.5 模型是在基于代码的 GPT 模型(code-davinci-002)的基础上开发的, 这表明使用代码数据进行训练是改善 GPT 模型能力(尤其是推理能力)的一种非常有用的实践。
      - 此外,还有一种猜测称使用代码数据进行训练可以极大地增加 LLM 的CoT 提示能力 ,尽管这仍然需要更全面的验证。
    - • 与人类对齐:
      - 应用强化学习(RL)来学习由人类标注的偏好比较的工作,类似于InstructGPT 在图 6中的对齐算法的奖励训练步骤
      - 近端策略优化 (Proximal Policy Optimization, PPO)
      - ,现在已经成为从人类偏好中学习的基础 RL 算法
      - 基于这些先前的工作,InstructGPT[61] 在 2022 年 1 月提出,以改进 GPT-3 模型的与人类对齐能力,正式建立了一个三阶段的基于人类反馈的强化学习(RLHF)算法
      - 除了提高指令遵循能力之外,RLHF 算法对于缓解有害或有毒内容的生成问题十分有效, 这对于 LLM 在实践中的安全部署至关重要。
    - 这些增强技术引出了具有更强能力的改进型 GPT-3 模型,OpenAI 称其为 GPT-3.5 模型
  - 语言模型的重要里程碑:
    - 基于所有的探索工作,OpenAI 取得了两个重要的里程碑:ChatGPT 和 GPT-4,这两个模型大大提升了现有 AI 系统的能力水平。
    - • ChatGPT:
      - 在 2022 年 11 月,OpenAI 发布了对话语言模型 ChatGPT, 它是基于 GPT 模型 (GPT-3.5 和 GPT-4) 开发。
      - ChatGPT 是以类似 InstructGPT 的方式进行训练的,但专门针对对话能力进行了优化。
      - 在 ChatGPT 和 InstructGPT 的数据收集上,他们指出了一个不同之处:
        ChatGPT 训练数据是通过将人类生成的对话(扮演用户和AI 两个角色)与 InstructGPT 数据集结合起来以对话形式生成。
        ChatGPT 支持了插件机制,进一步通过已有工具或应用扩展了 ChatGPT 的功能。
    - • GPT-4:
      - GPT-4于 2023 年3 月发布,将文本输入扩展到多模态信号。
      - GPT-4 具有比之前的 GPT 模型如 ChatGPT 更出色的性能。
      - 由于经过为期六个月的迭代对齐(在 RLHF 训练中加入了额外的安全奖励信号) ,GPT-4 对于具有恶意或挑衅的提问的响应更加安全。
      - 在技术报告中,OpenAI 强调了如何安全开发 GPT-4, 并采用了多种干预策略来减轻语言模型的可能问题,如幻觉、隐私和过度依赖。
        红队评估(red teaming)
        采用了改进的优化方法。他们引入了一种称为可预测扩展(predictable scaling)的新机制,可以使用模型训练期间一小部分的计算量来准确预测最终性能。
    - 尽管取得了巨大的进展,这些优秀的 LLM 仍然存在局限性,例如在某些特定上下文中生成错误的幻觉或存在潜在风险的回应
      - 从工程的角度来看,OpenAI 采用了一种迭代部署策略 [86],通过遵循五阶段的开发和部署生命周期来开发模型和产品, 以有效降低使用模型带来的潜在风险。

《A Survey of Large Language Models》
摘要
1 引言
语言建模的研究可以分为四个主要发展阶段：统计语言模型(SLM)、神经语言模型(NLM）、预训练语言模型(PLM)、大语言模型(LLM)
·统计语言模型(SLM)：基本思想是基于马尔可夫假设建立词预测模型，例如根据最近的上下文预测下一个词。
·神经语言模型(NLM）：引入了词的分布式表示这一概念，并在聚合上下文特征（即分布式词向量）的条件下构建词预测函数。开创了将语言模型用于表示学习（超越词序列建模)的应用
·预训练语言模型(PLM)：基于自注意力机制的高度并行化Transformer架构。确立了“预训练和微调”学习范式。
·大语言模型(LLM)：在解决一系列复杂任务中展示了惊人的能力（称为涌现能力)
LLM和PLM之间的三个主要区别：
LLM表现出一些令人惊讶的涌现能力
与小型PLM不同，访问LLM的主要方法是通过提示接口（例如GPT-4API)
LLM的发展不再明确区分研究和工程。
这一新技术浪潮可能会带来一个基于LLM的实际应用的繁荣生态系统。
基本原理尚未得到充分探索的挑战：
为什么涌现能力会出现在LLM中
研究界很难训练出有能力的LLM
将LLM与人类价值观或偏好保持一致是具有挑战性的
从四个主要方面对LLM的最近进展进行文献综述：
预训练（如何预训练出一个有能力的LLM)
适配微调（如何从有效性和安全性两个角度有效地微调预训练的LLM)
使用（如何利用LLM解决各种下游任务)
能力评估（如何评估LLM的能力和现有的经验性发现)

2 概述
2.1 大语言模型的背景
LLM是指包含数千亿（或更多)参数的Transformer 语言模型
本部分将介绍LLM的基本背景，包括扩展法则、涌现能力和关键技术。
大语言模型的扩展法则：LLM大幅度扩展了模型规模、数据规模和总计算量（数量级）。
KM扩展法则：(OpenAI 团队)这三个规律是通过拟合模型在不同数据大小（2200万到230亿个token)、模型大小（7.68亿到15亿个非嵌入参数)和训练计算量下的性能得出的。结果表明，模型性能与这三个因素存在着强依赖关系。
Chinchilla扩展法则：(Google DeepMind团队)
随着给定计算预算的增加，KM扩展法则更偏向于将更大的预算分配给模型大小，而Chinchilla扩展法则则认为模型大小和数据大小应该以相同的比例增加
大语言模型的涌现能力：
在小型模型中不存在但在大型模型中产生的能力。当规模达到一定水平时，性能显著提高，超出随机水平。
简要介绍了LLM的三种典型涌现能力和具备这种能力的代表性模型：
·上下文学习：ICL能力，假设已经为语言模型提供了一个自然语言指令和/或几个任务演示，它可以通过完成输入文本的单词序列的方式来为测试实例生成预期的输出，而无需额外的训练或梯度更新
·指令遵循：通过指令微调，LLM能够在没有使用显式示例的情况下遵循新的任务指令，因此它具有更好的泛化能力。
·逐步推理：对于小型语言模型而言，通常很难解决涉及多个推理步骤的复杂任务，例如数学问题。然而，通过使用思维链(Chain-of-Thought,.CoT)提示策略[32，LLM可以通过利用包含中间推理步骤的提示机制来解决这类任务，从而得出最终答案。
大语言模型的关键技术：
●扩展：Transformer语言模型存在明显的扩展效应：更大的模型/数据规模和更多的训练计算通常会导致模型能力的提升。然而，需要注意的是，数据扩展应该经过谨慎的清理过程，因为预训练数据的质量在模型能力中起着关键作用。
●训练：分布式训练算法是学习LLM网络参数所必需的，其中通常联合使用各种并行策略。此外，优化技巧对于训练稳定性和模型性能也很重要
●能力引导：作为技术手段，设计合适的任务指令或具体的ICL策略可以激发这些能力。例如，通过包含中间推理步骤，CoT提示已被证明对解决复杂的推理任务有效。此外，我们还可以使用自然语言表达的任务描述对LLM进行指令微调，以提高LLM在未见任务上的泛化能力。
●对齐微调：有必要使LLM与人类价值观保持一致，例如有用性、诚实性和无害性。为此， InstructGPT[61]设计了一种有效的微调方法，使LLM能够按照期望的指令进行操作，其中利用了基于人类反馈的强化学习技术
●工具操作：外部插件（现有或新创建的应用程序)的机制，可以广泛扩展LLM的能力范围。

2 概述
在本节中，我们将概述LLM的背景，并总结GPT系列模型的技术演变。

P5
2.1 大语言模型的背景
通常，LLM是指包含数千亿（或更多)参数的Transformer 语言模型4，这些模型是在大规模文本数据上进行训练的[31]，例如GPT-3[55],PaLM[56],Galactica[34和LLaMA[57]。LLM展现了理解自然语言和解决复杂任务（通过文本生成) 的强大能力。为了对LLM的工作原理有一个快速的了解，本部分将介绍LLM的基本背景，包括扩展法则、涌现能力和关键技术。
大语言模型的扩展法则：目前，LLM主要建立在Transformer 架构上[22]，其中多头注意力层堆叠在非常深的神经网络中。
现有的LLM采用类似的Transformer架构和与小型语言模型相同的预训练目标（如语言建模)。然而，LLM大幅度扩展了模型规模、数据规模和总计算量（数量级）。大量研究表明，扩展可以大幅提高LLM的模型能力[26,55,56]。因此，建立一个定量的方法来描述扩展效应是有意义的。接下来，我们介绍两个Transformer语言模型的代表性扩展法则[30,33]。
·KM扩展法则：2020年，Kaplan等人[30](OpenAI 团队)首次提出了神经语言模型的性能与模型规模（N)、数据集规模（D)和训练计算量（C)之间的幂律关系。在给定计算预算c的条件下，他们依据实验提出了三个基本公式来描述扩展法则6：
L(N) =
L(D) =
L© =
这里，L()表示用nats表示的交叉熵损失。这三个规律是通过拟合模型在不同数据大小（2200万到230亿个token)、模型大小（7.68亿到15亿个非嵌入参数)和训练计算量下的性能得出的，同时做出了一些假设（如一个因素的分析不会受到其他两个因素的限制)。结果表明，模型性能与这三个因素存在着强依赖关系。
·Chinchilla扩展法则：作为另一代表性研究，Hoffmann 等人33](Google DeepMind团队)提出了一种扩展法则的替代形式来指导LLM最优计算量的训练。他们通过变化更大范围的模型大小（7000万到160亿个参数)和数据大小（50亿

4.在现有文献中，关于LLM的最小参数规模没有形成正式共识，因为模型容量还与数据规模和总计算量有关。在本综述中，我们采用稍宽松的LLM定义，并主要讨论模型规模大于100亿的语言模型。
5.由于原始论文中没有按照此法则训练的模型，我们使用了两位共同第一作者的姓氏来命名这个扩展法则。
6.这里，Nc、Dc和Cc分别以非嵌入参数数量、训练token数量和FP-days的数量来衡量。根据原始论文[30]，Cc和C应该分别表示为Cmin和Cmin,对应于计算量的最佳使用。但为了便于讨论，我们使用了简化的符号。

P6
到5000亿个token)进行了严格的实验，并拟合了一个类似的扩展法则，但具有不同的系数，如下所示[33]：
L(N,D)=
其中E=1.69,A=406.4,B=410.7,a=0.34和B=0.28。
通过在约束条件C≈6ND下优化损失L(N,D),他们展示了将计算预算最优地分配给模型大小和数据大小的方法（如下)：
N（C）=
这里，a=,b=,G是由A、B、a和B计算得出的扩展系数。正如[33]中所分析的那样，随着给定计算预算的增加，KM扩展法则更偏向于将更大的预算分配给模型大小，而Chinchilla扩展法则则认为模型大小和数据大小应该以相同的比例增加，即在公式(3)中的α和b取相近的值。
虽然存在一些限制性的假设，这些扩展法则提供了对扩展效应的直观理解，使得在训练过程中能够预测LM的性能[45]。然而，一些能力（如ICL[55])无法根据扩展法则进行预测，只有当模型超过一定规模时才能被观察到（如下面讨论)。
大语言模型的涌现能力：在文献中[47]，LLM的涌现能力被正式定义为“在小型模型中不存在但在大型模型中产生的能力”，这是区别LLM与先前PLM的最显著特征之一。文章进一步介绍了当涌现能力出现时的一个显著特点[47]：当规模达到一定水平时，性能显著提高，超出随机水平。类比而言，这种涌现模式与物理学中的相变现象有密切联系[47,58]。原则上，涌现能力可以与一些复杂任务相关联[47,591，但我们更关注可以用来解决各种任务的普遍能力。在这里，我们简要介绍了LLM的三种典型涌现能力和具备这种能力的代表性模型7。
·上下文学习：ICL能力是由GPT-3[55]正式引入的：假设已经为语言模型提供了一个自然语言指令和/或几个任务演示，它可以通过完成输入文本的单词序列的方式来为测试实例生成预期的输出，而无需额外的训练或梯度更新8。在GPT 系列模型中，1750亿的GPT-3模型在一般情况下表现出强大的ICL能力，但GPT-1和GPT-2模型则没有。然而，这种能力还取决于具体的下游任务。例如，130亿参数的GPT-3 可以在算术任务（例如3位数的加减法)上展现出ICL能力，但1750亿参数的GPT-3在波斯语QA任务上甚至无法很好地工作[47]。

7.准确检测LLM出现涌现能力的临界规模（即具备能力的最小规模) 是困难的，因为它可能因不同模型或任务而相异。此外，现有的研究常常仅针对具体LLM在非常有限的几个模型规模上进行涌现能力的测试。
例如，PaLM通常在80亿、620亿和5400亿三种模型大小上进行测试，大小未测试过的模型的性能尚不清楚
8.最近的一项研究[60]还表明ICL通过注意机制隐式执行元优化。

P7
·指令遵循：通过使用自然语言描述的混合多任务数据集进行微调（称为指令微调)，LLM在未见过的以指令形式描述的任务上表现出色[28,61,62]。通过指令微调，LLM能够在没有使用显式示例的情况下遵循新的任务指令，因此它具有更好的泛化能力。[62]中的实验证明，当模型大小达到680亿时，经过指令微调的LaMDA-PT[63]开始在未见过的任务上显著优于未微调的模型，但对于80亿或更小的模型大小则不会如此。最近的一项研究[64]发现，PaLM至少在620亿的模型大小上才能在四个评估基准（即MMLU、BBH、TyDiQA 和MGSM)的各种任务上表现良好，尽管较小的模型可能足够完成某些特定任务（例如MMLU)。
·逐步推理：对于小型语言模型而言，通常很难解决涉及多个推理步骤的复杂任务，例如数学问题。然而，通过使用思维链(Chain-of-Thought,.CoT)提示策略[32，LLM可以通过利用包含中间推理步骤的提示机制来解决这类任务，从而得出最终答案。这种能力可能是通过在代码上进行训练而获得。一项实证研究[32]表明，当应用于模型大小大于600亿的PaLM和LaMDA变体时，CoT提示可以提高模型在算术推理基准任务上的性能，而当模型大小超过1000亿时，其相对于标准提示的优势更加明显。此外，CoT提示的性能改进在不同的任务上也存在差异，例如对于PaLM来说，GSM8K MAWPS SWAMP 32
大语言模型的关键技术：经过漫长的发展，LLM进化到了当前的状态一通用且有能力的学习者。在这个过程中，人们提出了许多重要的技术，大大提升了LLM的能力。在此，我们简要列举了几种重要的技术，这些技术（可能)是导致LLM 成功的关键。
●扩展：如前面的部分所讨论的，Transformer语言模型存在明显的扩展效应：更大的模型/数据规模和更多的训练计算通常会导致模型能力的提升[30,33]。作为两个代表性的模型，GPT-3和PaLM通过增加模型规模分别达到了1750亿和5400亿。此外，由于计算预算通常是有限的，可以利用扩展法则来更高效地分配计算资源。例如，Chinchilla（具有更多的训练token)通过在相同的计算预算下增加数据规模，优于其对应的模型Gopher（具有更大的模型规模)[33]。然而，需要注意的是，数据扩展应该经过谨慎的清理过程，因为预训练数据的质量在模型能力中起着关键作用。
●训练：由于巨大的模型规模，成功训练一种能力强的LLM是非常具有挑战性的。分布式训练算法是学习LLM网络参数所必需的，其中通常联合使用各种并行策略。为了支持分布式训练，已经发布了一些优化框架来促进并行算法的实现和部署，例如DeepSpeed[65]和Megatron-LM[66-68]。
此外，优化技巧对于训练稳定性和模型性能也很重要，例如重新开始以克服训练损失激增[56]和混合精度训练[69]。最近，GPT-4[45]提出开发特殊的基础结构和优化方法，用更小的模型来可靠地预测大模型性能。

P8
·能力引导：在大规模语料库上预训练之后，LLM具备了作为通用任务求解器的潜在能力。然而，当LLM执行一些特定任务时，这些能力可能不会显式地展示出来。作为技术手段，设计合适的任务指令或具体的ICL策略可以激发这些能力。例如，通过包含中间推理步骤，CoT提示已被证明对解决复杂的推理任务有效。此外，我们还可以使用自然语言表达的任务描述对LLM进行指令微调，以提高LLM在未见任务上的泛化能力。然而，这些技术主要对应于工LLM的涌现能力，可能对小语言模型的效果不同。
·对齐微调：由于LLM被训练用来捕捉预训练语料库的数据特征（包括高质量和低质量的数据)，它们可能会为人类生成有毒、偏见甚至有害的内容。因此，有必要使LLM与人类价值观保持一致，例如有用性、诚实性和无害性。为此， InstructGPT[61]设计了一种有效的微调方法，使LLM能够按照期望的指令进行操作，其中利用了基于人类反馈的强化学习技术[61,70]。它将人类纳入训练循环中，采用精心设计的标注策略。ChatGPT实际上采用类似于InstructGPT的技术，在产生高质量、无害的回答（例如拒绝回答侮辱性问题) 方面表现出很强的对齐能力。
·工具操作：从本质上讲，LLM是基于海量纯文本语料库进行文本生成训练的，因此在那些不适合以文本形式表达的任务上表现不佳（例如数字计算)。此外，它们的能力也受限于预训练数据，例如无法获取最新信息。为了解决这些问题，最近提出了一种技术，即利用外部工具来弥补LLM的不足[71,72。例如，LLM可以利用计算器进行准确计算[71，利用搜索引擎检索未知信息[72]。最近，ChatGPT已经实现了使用外部插件（现有或新创建的应用程序)的机制，这类似于LLM的“眼睛和耳朵”。这种机制可以广泛扩展LLM的能力范围。
此外，许多其他因素（例如硬件升级)也对LLM的成功做出了贡献。但是，我们主要讨论在开发LLM方面的主要技术方法和关键发现。

L_serein

关注

3
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
0
评论
笔记-《A Survey of Large Language Models》- 2 概述

62]中的实验证明，当模型大小达到680亿时，经过指令微调的LaMDA-PT[63]开始在未见过的任务上显著优于未微调的模型，但对于80亿或更小的模型大小则不会如此。然而，需要注意的是，数据扩展应该经过谨慎的清理过程，因为预训练数据的质量在模型能力中起着关键作用。正如[33]中所分析的那样，随着给定计算预算的增加，KM扩展法则更偏向于将更大的预算分配给模型大小，而Chinchilla扩展法则则认为模型大小和数据大小应该以相同的比例增加，即在公式(3)中的α和b取相近的值。
复制链接

扫一扫