AI 语言大模型关键技术深度讲解 2024-CSDN博客

本文链接：https://blog.csdn.net/m0_59235945/article/details/140558347

1 语言大模型关键技术

语言大模型技术主要包括模型预训练、适配微调、提示学习、知识增强和工具学习等。

1.1 语言大模型的预训练

支撑语言大模型高效训练的技术主要包括高性能训练工具、高效预训练策略、高质量训练数据、高效的模型架构等。

高效预训练策略。其主要思路是采用不同的策略以更低成本实现对语言大模型的预训练。

第一种是在预训练中设计高效的优化任务目标，使得可以使得模型能够利用每个样本更多的监督信息，从而实现模型训练的加速。

‍
第二种是热启动策略，在训练开始时线性地提高学习率，以解决在预训练中单纯增加批处理大小可能会导致优化困难问题。

‍
第三种是渐进式训练策略，不同于传统的训练范式使用相同的超参数同时优化模型每一层，该方法认为不同的层可以共享相似的自注意力模式，首先训练浅层模型，然后复制构建深层模型。

‍
第四种是知识继承方法，即在模型训练中同时学习文本和已经预训练语言大模型中的知识，以加速模型训练。在中文语言大模型 CPM-2中，采用知识继承技术经测试可以使大模型在预训练前期提速 37.5%。

‍
第五种是可预测扩展策略（Predictable Scaling），旨在大模型训练初期，利用大模型和小模型的同源性关系，通过拟合系列较小模型的性能曲线预测大模型性能，指导大模型训练优化。

‍

OpenAI 在 GPT-4 训练中，使用 1000 倍至 10000 倍较少计算资源训练的小模型可靠地预测GPT-4 某些性能，大幅降低了模型训练成本。

图 2-4 GPT-4 的可预测扩展实验

高效的模型架构。BERT 之后的 Transformer 架构在提高自然语言处理效率方面有两个重要优化方向：

**（1）统一的序列建模：**旨在将多种自然语言处理任务（如分类、信息抽取、翻译、对话等）整合到一个统一的框架，然后在同一模型中执行多个任务，以实现更高效的自然语言处理。该方法可以充分利用大规模训练数据，从而提高了模型在多个任务上的性能和泛化性。这减少了开发和维护多个单独模型的复杂性以及资源消耗，提高模型的通用性。

统一任务序列建模有两种方式：

一是转化为序列生成的统一任务，如 T5和 BART等将多种自然语言任务统一转化文本到文本的生成任务；

二是转化为语言大模型预训练任务，通过语言提示在输入文本中插入人类设计或者自动生成的上下文，实现对不同任务的处理。

**（2）计算高效的模型架构：**从 Transformer 模型架构本身在处理训练复杂度、编解码效率、训练稳定性、显存利用等方面进行优化。比如，Transformer 其并行处理机制是以低效推理为代价的，解码时每个步骤的复杂度为 O(N)，Transformer 模型也是显存密集型模型，输入序列越长、占用的内存越多。

为此，微软设计了一种新的 Transformer 架构 RetNet，其采用线性化注意力+尺度保持（Retention ）机制，在基本保持模型性能的基础上同时实现模型训练速度、推断速度和内存节约的大幅提升。

针对自注意力显存消耗大，斯坦福大学在 Transformer 中引入FashAttention，给出了一种具有 IO 感知，且兼具快速、内存高效的注意力算法，已经被各种主流大模型采用以扩展对超长文本输入的支持。

最近，模块化大模型架构引起广泛关注，其利用大模型的神经激活稀疏性，对稠密模型进行模块化划分，不同任务只经过部分模块计算实现训练和推理加速，典型工作包括 Google 的 Switch Transformers 和 Pathways架构、清华大学的 MoEfication 架构、FastMoE 架构等。

图 2-5 混合专家化的模型架构

1.2 语言大模型的适配微调

语言大模型由于在大规模通用领域数据预训练通常缺乏对特定任务或领域的知识，因此需要适配微调。微调可以帮助模型更好地适应特定需求，如对敏感数据（如医疗记录）的处理，同时不暴露原始数据。此外，微调可以提高部署效率、减少计算资源需求。指令微调和参数高效学习是适配微调的关键技术。

指令微调 (Instruction Tuning)，是一种可以帮助语言大模型实现人类语言指令遵循的能力，在零样本设置中泛化到未见任务上的学习方法。

指令微调学习形式与多任务提示微调相似，但与提示微调让提示适应语言大模型并且让下游任务对齐预训练任务不同，其是让语言大模型对齐理解人类指令并按照指令要求完成任务，即在给定指令提示的情况下给出特定的回应，其中提示可以选择性包含一条解释任务的指令。指令微调研究涉及指令理解、指令数据获取和指令对齐等内容。

（1）指令理解，指语言大模型准确理解人类语言指令的能力，是语言大模型执行指令完成任务的前提。为了增强对指令的理解，许多工作采用多任务提示方式对基于指令描述的大量任务集上对语言大模型进行微调，如 FLAN[50]、InstructGPT等，这些模型在未见的任务上显示出优越的零样本性能。

（2）指令数据获取, 指如何构建包含多样性的任务指令数据。指令数据构建常见有三种方式：

i）基于公开人工标注数据构建，代表指令数据集包括 1616 种不同任务的 Super-Natural Instruction、2000 种不同 NLP 任务的 OPT-IML。

ii）借助语言大模型的自动生成构建，如 Unnatural Instructions，通过种子指令作为提示让语言大模型生成新的指令描述和问题，然后再输入到模型让其输出回答。

iii）基于人工标注方法，如 ChatGPT 在人工标注指令的基础上通过 GPT-3、InstructGPT 等在线平台收集用户真实指令数据。

（3）指令对齐, 语言大模型在多种自然语言处理任务上都展现了卓越的性能。然而，它们有时可能会出现不预期的行为，如创造虚假信息、追求错误目标或产生有偏见的内容。其根本原因在于，语言大模型在预训练时仅通过语言模型建模，未涉及人类的价值观或偏好。

为了解决这一问题，研究者提出了“指令对齐”，使语言大模型的输出更符合人类的预期。但这种对齐与原始预训练有所不同，更注重于有用性、诚实性和无害性。此外，指令对齐可能会降低语言大模型的某些通用能力，这被称为“Alignment Tax”。

为实现模型输出与对人类价值的对齐，InstructGPT 提出了一种基于人类反馈的微调方法，利用了强化学习技术，将人类反馈纳入模型微调过程。

实际上，ChatGPT 也采用了与 InstructGPT 相似的技术，以确保产生高质量且无害的输出。指令对齐的广泛应用，适配微调从纯数据学习的传统微调范式开始逐步向人类学习范式的转变。

参数高效微调（Parameter-Efficient Tuning）。早期以 BERT 为代表的微调方法，是在大模型基座上增加一个任务适配层，然后进行全参微调，

但是这种方法存在两方面的问题：

一是任务“鸿沟”问题，预训练和微调之间的任务形式不一致，这种差别会显著影响知识迁移的效能。

二是高计算成本，语言大模型的参数规模不断增长，导致模型全参微调也需要大量计算资源。

解决以上问题的有效途径是参数高效学习，即通过仅微调少量参数实现大模型在下游任务上获得全参微调效果。

目前许多参数高效微调方法被提出，这些方法大致可分为 3 类：

（1）添加式方法：旨在原模型基础上引入额外的模块或参数，并仅微调该引入部分的参数。如适配器（Adapter）方法，旨将小规模的神经模块（适配器）注入到预训练模型中，并只调整这些适配器以进行模型自适应。在实际应用中，适配器模块通常分别插入在多头自注意和前馈网络子层之后，成为最广泛使用方式；

（2）指定式方法：旨在原模型指定模型中部分参数为可训练参数，并固定模型其他参数。这类方法简单也十分有效，如仅通过优化模型内的偏置项并固定其他参数，模型仍然可以再现 95%以上的模型全参微调性能；

（3）重参数化方法：将原模型或部分模型参数重参数化到低维度参数空间中，仅仅优化低维空间中的近似参数，显著降低模型的计算量和内存消耗。如 LoRA，将模型自注意力模块的变化权重参数分解为两个低秩矩阵相乘，即

图 2-6 参数高效微调的 3 种范式

参数高效微调通常具有微调参数规模小、增量式微调参数、即插即用等特点，这种技术也统一成技术框架 Delta Tuning。

一些围绕参数高效微调的开源工具也被研发，代表性包括 OpenPrompt、OpenDelta等。

由于不同任务的微调参数可以被重复利用，一些关于高效微调的仓库也被构建，如 AdapterHub、Delta Center等。随着语言大模型的兴起，高效微调吸引了越来越多的关注，以开发一种更轻量级的下游任务适配方法。

特别地，LoRA已广泛应用于各种开源语言大模型（如 LLaMA）以实现参数高效微调。

1.3 语言大模型的提示学习

通过大规模文本数据预训练之后的语言大模型具备了作为通用任务求解器的潜在能力，但这些能力在执行一些特定任务时可能不会显式地展示出来。在大模型输入中设计合适的语言指令提示有助于激发这些能力，该技术称为模型提示技术。代表性的提示技术有指令提示和思维链提示：

指令提示（Instruction Prompt），也称为提示学习。OpenAI 在GPT-3 中首次提出上下文提示，并发现 GPT-3 在少样本提示下能够达到人类水平，证明在低资源场景下非常有效，引起广泛关注。

指令提示核心思想是避免强制语言大模型适应下游任务，而是通过提供“提示（Prompt）”来给数据嵌入额外的上下文以重新组织下游任务，使之看起来更像是在语言大模型预训练过程中解决的问题。

指令提示有三种形式：

（1）少样本提示，是指在一个自然语言提示后面附加一些示例数据，作为语言大模型的输入。其可以提高语言大模型在不同领域和任务上的适应性和稳定性。少样本提示也存在一些挑战，例如如何确定合适的示例数量、如何选择示例等。

（2）零样本提示，是指不使用任何示例数据，只依靠一个精心设计的提示来激活语言大模型中与目标任务相关的知识和能力。零样本提示关键问题包括如何设计合适的提示、如何选择最优的提示等。

（3）上下文学习（In-contextLearning, ICL），也称情境学习，是指将一个自然语言问题作为语言大模型的输入，并将其答案作为输出。情境学习可以看作是一种特殊形式的少样本提示，在问题中隐含地包含了目标任务和格式信息。情境学习可以简化问题表示和答案生成，并且可以灵活地处理多种类型和复杂度的问题。其挑战在于，如何确保问题质量、如何评估答案正确性等。

图 2-7 几种提示样例对比

思维链（Chain-of-Thought，CoT）。推理的过程通常涉及多个推论步骤，通过多步推理允许产生可验证的输出，可以提高黑盒模型的可解释性。

思维链是一种提示技术，已被广泛用于激发语言大模型的多步推理能力，被鼓励语言大模型生成解决问题的中间推理链，类似于人类使用深思熟虑的过程来执行复杂的任务。

在思维链提示中，中间自然语言推理步骤的例子取代了少样本提示中的〈输入，输出〉对，形成了〈输入，思维链，输出〉三元组结构。思维链被认为是语言大模型的“涌现能力”，通常只有模型参数规模增大到一定程度后，才具有采用思维链能力。

激活语言大模型的思维链能力方法，在提示中给出逐步的推理演示作为推理的条件，每个演示都包含一个问题和一个通向最终答案的推理链（图 2-7）。

1.4 语言大模型的知识增强

知识运用和推理能力是衡量语言大模型智能水平的重要因素。美国 Allen AI 研究大模型的问答能力，发现 GPT-3 在处理具有预设立场（false premise）的简单性常识性问题时，如类似“太阳有几只眼睛？”，GPT-3 仍然会给出“太阳两只眼睛”的荒谬回复。

有效的解决方法是在深度学习模型基础上融入各类型相关外部知识。根据大模型知识融合部位不同，知识融合方法从模型输入、神经架构、模型参数、输出等不同层面，大致分为以下 4 类，如图 2-8 所示：

图 2-8 语言大模型知识增强的 4 种途径

知识增广：从输入端增强模型，有两种主流的方法：一种方式是直接把知识加到输入，另一方法是设计特定模块来融合原输入和相关的知识化的输入表示。

知识支撑：关注于对带有知识的模型本身的处理流程进行优化。一种方式是在模型的底部引入知识指导层来处理特征，以便能得到更丰富的特征信息。例如，使用专门的知识记忆模块来从大模型底部注入丰富的记忆特征。另一方面，知识也可以作为专家在模型顶层构建后处理模块，以计算得到更准确和有效的输出。

知识约束：利用知识构建额外的预测目标和约束函数，来增强模型的原始目标函数。例如，远程监督学习利用知识图谱启发式标注语料作为新的目标，并广泛用于实体识别、关系抽取等系列 NLP 任务。或者利用知识构建额外的预测目标，在原始语言建模之外构建了相应额外的预训练目标。

知识迁移：模型知识作为重要的知识来源，也可以直接用于下游任务，例如初始化模型参数。迁移学习和自监督学习都是知识迁移的重要研究方向。目前，知识迁移技术已被广泛应用于自然语言处理，以 BERT 为首的各种预训练模型是现在知识迁移的主要方法。

1.5 语言大模型的工具学习

语言大模型具备理解、推理和决策能力，可与外部工具互动。在特定领域任务中，如金融领域的证券交易和市场预测，语言大模型通常需要结合外部工具获取信息和技能才能处理。

整合外部工具与语言大模型可以发挥各自优势实现复杂任务的处理，其中外部工具可增强专业知识和可解释性，语言大模型提供语义理解和推理规划能力。

2021 年底，OpenAI 推出 WebGPT，利用 GPT-3 与网页浏览器和搜索引擎交互获取互联网信息在长文本问答上实现非常强的能力，展现了语言大模型利用工具解决复杂问题的巨大潜力。

该工作引起了学术界和产业界的广泛关注，产生了许多面向不同任务或场景需求的大模型调用工具的方法，如 Webshop，使用语言大模型替代人在购物平台上执行一系列操作、购买所需物品。

2023年3月，OpenAI发布 ChatGPT Plugins，实现 ChatGPT 调用各种外部插件的功能，支持浏览器实时信息获取、代码解释器、PDF 阅读等能力，截至 8月已支持 480 个常用工具插件。

Meta 将这种通过非参数的外部模块扩展语言大模型能力的方法，统一称为增广语言模型（Augmented Language Models）。

清华大学在现有大模型工具使用方法基础上，提出了工具学习（Tool Learning）框架，指在让模型能够理解和使用各种工具完成任务的学习过程。

图 2-9 基于用户接口视角的工具分类

目前可交互的通用工具按用户接口大致可分为三类（图 2-9）：物理交互的工具（如机器人、传感器等）、基于图形用户界面的工具（如浏览器、Office 办公软件等）、基于编程接口的工具（如数据库、知识图谱）等。

从学习目标的角度来看，现有工具学习方法主要可以分为两类：

一类是工具增强学习（Tool-augmented Learning），利用各种工具的执行结果，增强基础模型性能。在这一范式中，工具执行结果被视为辅助生成高质量输出的外部资源；

第二类是工具导向学习（Tool-oriented Learning），将学习过程重点从增强模型性能转向工具执行本身。这一类研究关注开发能够代替人类控制工具并进行序列决策的模型。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述