AI 大模型 Transformer 架构技术白皮书 2024

程序猿李巡天

于 2024-07-18 21:55:12 发布

阅读量417

点赞数 16

文章标签：人工智能 transformer 架构 pytorch tensorflow 神经网络电脑

本文链接：https://blog.csdn.net/m0_59235945/article/details/140534165

版权

1. 大模型技术概述

1.1 大模型技术的发展历程

2006 年 Geoffrey Hinton 提出通过逐层无监督预训练的方式来缓解由于梯度消失而导致的深层网络难以训练的问题，为神经网络的有效学习提供了重要的优化途径。此后，深度学习在计算机视觉、语音、自然语言处理等众多领域取得了突破性的研究进展，开启了新一轮深度学习的发展浪潮。

总结过去十多年的技术发展，基于深度学习的人工智能技术主要经历了如下的研究范式转变：从早期的“标注数据监督学习”的任务特定模型，到“无标注数据预训练+标注数据微调”的预训练模型，再到如今的“大规模无标注数据预训练+指令微调+人类对齐”的大模型，经历了从小数据到大数据，从小模型到大模型，从专用到通用的发展历程，人工智能技术正逐步进入大模型时代。

2022 年底，由 OpenAI 发布的语言大模型 ChatGPT 引发了社会的广泛关注。在“大模型+大数据+大算力”的加持下，ChatGPT 能够通过自然语言交互完成多种任务，具备了多场景、多用途、跨学科的任务处理能力。以 ChatGPT 为代表的大模型技术可以在经济、法律、社会等众多领域发挥重要作用。大模型被认为很可能像 PC 时代的操作系统一样，成为未来人工智能领域的关键基础设施，引发了大模型的发展热潮。

本次大模型热潮主要由语言大模型（亦称为大语言模型）引领。语言大模型通过在海量无标注数据上进行大规模预训练，能够学习到大量的语言知识与世界知识，并且通过指令微调、人类对齐等关键技术拥有面向多任务的通用求解能力。在原理上，语言大模型旨在构建面向文本序列的概率生成模型，其发展过程主要经历了四个主要阶段：

**1）统计语言模型：**统计语言模型主要基于马尔可夫假设建模文本序列的生成概率。特别地，N-gram 语言模型认为下一个词汇的生成概率只依赖于前面出现的 N 个词汇（即 N 阶马尔可夫假设）。此类语言模型的问题在于容易受到数据稀疏问题的影响，需要使用平滑策略改进概率分布的估计，对于文本序列的建模能力较弱。

**2）神经语言模型：**针对统计语言模型存在的问题，神经语言模型主要通过神经网络（MLP[7]、RNN[8]）建模目标词汇与上下文词汇的语义共现关系，能够有效捕获复杂的语义依赖关系，更为精准建模词汇的生成概率。进一步，word2vec[4]简化了神经语言模型的网络架构，可以从无监督语料中学习可迁移的词表示（又称为词向量或词嵌入），为后续预训练语言模型的研究奠定了基础。

**3）预训练语言模型：**预训练语言模型主要是基于“预训练+微调”的学习范式构建，首先通过自监督学习任务从无标注文本中学习可迁移的模型参数，进而通过有监督微调适配下游任务。早期的代表性预训练语言模型包括 ELMo[9]、GPT-1[10]和 BERT[11]等。其中，ELMo模型基于传统的循环神经网络（LSTM）[12]构建，存在长距离序列建模能力弱的问题；随着 Transformer[13]的提出，神经网络序列建模能力得到了显著的提升，GPT-1 和 BERT 都是基于 Transformer 架构构建的，可通过微调学习解决大部分的自然语言处理任务。

**4）语言大模型（探索阶段）：**在预训练语言模型的研发过程中，一个重要的经验性法则是扩展定律（Scaling Law）：随着模型参数规模和预训练数据规模的不断增加，模型能力与任务效果将会随之改善。

图 1-1 展示了 2018 至 2023 年间典型预训练模型的参数量变化趋势。OpenAI 在研发 GPT 系列模型过程中，主要探索了 GPT-1[10]（1.1 亿参数）、GPT-2（15 亿参数）、以及 GPT-3（1750 亿参数）三个不同参数规模的模型，谷歌也推出了参数规模高达 5400 亿参数的 PaLM 模型。

当模型参数规模达到千亿量级，语言大模型能够展现出多方面的能力跃升。例如，GPT-3 在没有微调的情况下，可以仅通过提示词或少数样例（In-context learning，上下文学习）完成多种任务，甚至在某些任务上超过当时最好的专用模型。学术界引入了“语言大模型”（Large language models）[5]来特指这种超大规模的预训练语言模型，以突出与早期预训练语言模型的不同。

图 1-1 2018-2023 年模型参数规模变化图

**5）语言大模型（提升阶段）：**虽然早期的语言大模型表现出一定的少样本学习能力，但是其学习目标主要通过预测下一个单词实现，仍不能很好地遵循人类指令，甚至会输出无用的、有害的信息，难以有效对齐人类的偏好。

针对这些问题，主要有两种大模型改进技术，包括指令微调（Instruction Tuning）以及基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF) 。

指令微调利用格式化（指令和回答配对）的训练数据加强大模型的通用任务泛化能力；基于人类反馈的强化学习（如图 1-2 所示）将人类标注者引入到大模型的学习过程中，训练与人类偏好对齐的奖励模型，进而有效指导语言大模型的训练，使得模型能够更好地遵循用户意图，生成符合用户偏好的内容。

在大模型使用过程中，可以使用各种提示技术（包括思维链（ Chain-of-Thoughts, CoT ）、思维树（Tree-of-Thoughts, ToT）等），从而更好地利用大模型的潜在能力，提升大模型解决实际问题的能力。

进一步，语言大模型主要是基于文本数据形式进行训练与推理，存在一些特定能力的不足，例如数值计算等。针对这一问题，可以使用外部工具（如计算器、搜索引擎等）扩展大模型的能力边界。

图 1-2 基于人类反馈强化学习的算法示意图

作为重要前沿探索力量，OpenAI 对于语言大模型的研发工作主要是在 Transformer 架构推出后开展，形成了一系列的技术进展。

其中

GPT-1 探索了解码器 Transformer 架构（decoder-only Transformer）在“预训练+微调”范式下的自然语言任务求解能力。

‍‍
GPT-2 初步验证了扩大模型参数规模的有效性（扩展法则），并且探索了基于自然语言提示的多任务解决能力。

‍‍
GPT-3 首次探索了千亿参数规模的语言模型效果，提出了基于“上下文学习”的任务解决方法；CodeX使用代码数据对 GPT-3 进行微调，从而提升代码能力和复杂推理能力；InstructGPT基于人类反馈的强化学习技术（RLHF），能够强化对于人类指令的遵循能力和人类偏好的对齐能力。ChatGPT 与InstructGPT 的技术原理相似，进一步引入了对话数据进行学习，从而加强了多轮对话能力。

‍
GPT-4能够处理更长的上下文窗口，具备多模态理解能力，在逻辑推理、复杂任务处理方面的能力得到显著改进，但其他相关技术细节未予披露。

‍

随着 GPT-4 的成功，语言大模型对于多模态领域也产生了重要影响，它从单调的文本交互，升级为可以接受文本与图像组合的多模态输入，相比传统的单模态大模型，多模态大模型更加符合人类的多渠道感认知方式，能够应对更加复杂丰富的环境、场景和任务。

GPT-4表明在多模态大模型中引入基于人类知识的自然语言能够带来模型在多模态理解、生成、交互能力上的。

1.2 大模型技术的生态发展

大模型服务平台正向个人开放及商业落地应用延伸,不同公司互有侧重,为用户提供了多种获取大模型能力的途径。OpenAI API 较早地面向公众开放的大模型服务平台,用户可以通过 API 访问不同的GPT 模型来完成下游任务。

Claude 系列模型是由 Anthropic 开发的闭源语言大模型，目前包含 Claude 和 Claude-Instant 两种模型可供选择。该系列模型通过无监督预训练、基于人类反馈的强化学习和Constitutional AI 技术（包含监督训练和强化学习）进行训练，旨在改进模型的有用性、诚实性和无害性。Claude 最高支持 100K 词元的上下文，而 Claude-2 更是拓展到了 200K 词元的上下文。

文心一言是基于百度文心大模型的知识增强语言大模型，提供 APP、网页版、API 接口等多种形式的开放服务。文心一言还建设了插件机制，通过外部工具、服务的调用，拓展大模型的能力的边界。

讯飞星火认知大模型具有开放式知识问答、多轮对话、逻辑和数学能力，并且具有较强的对代码和多模态的理解能力。讯飞和华为还联合重磅发布了国内首款支持大模型训练私有化的全国产化产品“星火一体机”，可支持企业快速实现讯飞星火大模型的私有化部署、场景赋能和专属大模型训练优化。

**大模型的开源生态也“百花齐放”，主要包括开源框架与开源大模型。开源框架可以有效地支撑大规模模型的训练。**‍

如：PyTorch提供了分桶梯度、通信计算重叠、跳过同步等技术,支持大规模的分布式数据并行训练；飞桨是国产的深度学习框架,早在内部就支持了大规模分布式训练，覆盖了计算机视觉、自然语言处理等多个领域的模型，其中 4D 混合并行策略,可训练千亿规模模型；

OneFlow 将分布式集群抽象成逻辑上的超级设备,支持动静态图灵活转换,以数据+模型混合并行提升性能；DeepSpeed[29]是微软推出的大模型训练框架,其中 ZeRO 技术减少冗余内存访问,使得可以训练万亿级模型。开源大模型可降低大模型研究的门槛，促进大模型应用的繁荣。

其中典型代表有：LLaMA系列是 Meta 研发的开源大模型,参数规模从 7B到 65B 不等,仅依赖公开数据集进行预训练,通过数据过滤和并行优化实现高效训练。

Falcon系列来自阿布扎比的 TII 研究院,最大规模达 180B 参数,基于开源许可发布,性能与 GPT-4 和 PaLM2 相当,参数量却较小。GLM系列采用空白填充等多任务联合训练方式,提升了模型的生成能力。Baichuan 系列模型由百川智能开发, 支持中英双语,使用高质量训练数据,在多个基准测试上表现优秀，该系列模型还开源了多种量化版本。Baichuan 2 在保留原有模型优势的基础上,增强了逻辑推理等方面的能力。CPM 系列采用经典的语言模型自回归训练方式,在各类中文 NLP 任务上均表现卓越。

大模型技术具有广泛的应用场景，可以用来赋能不同行业。

大模型+传媒可以实现智能新闻写作，降低新闻的生产成本；

‍
大模型+影视可以拓宽创作素材，开拓创作思路，激发创作灵感，提升作品质量；

‍
大模型+营销可以打造虚拟客服，助力产品营销；

‍
大模型+娱乐可以加强人机互动，激发用户参与热情，增加互动的趣味性和娱乐性；

‍
大模型+军事可以增强军事情报和决策能力，可以实现实时战场翻译，快速准确的威胁评估、作战任务规划和执行、战场感知、战术决策支持、改进态势感知等；

‍
大模型+教育可以赋予教育教材新活力，让教育方式更个性化、更智能；大模型+金融可以帮助金融机构降本增效，让金融服务更有温度；

‍
大模型+医疗可以赋能医疗机构诊疗全过程。

‍

总之，大模型的发展将给人类带来了非常强大的助推力，让数字世界和现实世界的共生变得更为便捷、更为有效。

大模型的通用性使其被认为是可以成为未来人工智能应用中的关键基础设施，就像 PC 时代的操作系统一样，赋能百业，加速推进国民经济的高质量发展。

向上，大模型可带动上游软硬件计算平台的革新，形成高性能软硬件与大模型的协同发展，构建“大模型+软硬件+数据资源”上游发展生态；

向下，大模型可以打造“大模型+应用场景”的下游应用生态，加速全产业的智能升级，对经济、社会和安全等领域的智能化升级中形成关键支撑。

1.3 大模型技术的风险与挑战

尽管以 ChatGPT 为代表的大模型技术取得关键性突破，但当前大模型技术仍存在诸多风险与挑战。

首先，大模型的可靠性无法得到有效保障。例如，基于海量数据训练的语言大模型，尽管其生成的内容符合语言规则、通顺流畅且与人类偏好对齐，但其合成内容在事实性、时效性方面等仍存在较多问题，尚无法对所合成内容做出可靠评估。

其次，大模型的可解释性存在不足。大模型基于深度神经网络，为黑盒模型，其工作机理仍难以理解。语言大模型的涌现能力、规模定律，多模态大模型的知识表示、逻辑推理能力、泛化能力、情景学习能力等方面有待展开深入研究，为大模型的大规模实际应用提供理论保障。

再次，大模型应用部署代价高。大模型参数规模和数据规模都非常巨大，存在训练和推理计算量大、功耗高、应用成本高、端侧推理存在延迟等问题，从而限制了其落地应用。提高推理速度降低大模型使用成本是大规模应用的关键。

此外，大模型在小数据情景下的迁移能力存在不足。大模型基于数据驱动深度学习方式，依赖训练数据所覆盖的场景，由于复杂场景数据不足，大模型存在特定场景适用性不足的问题，面临鲁棒性和泛化性等挑战。提升大模型对小数据的高效适配迁移能力是未来研究的重点。

最后，大模型还存在伴生技术风险问题。例如，语言大模型具有通用的自然语言理解和生成能力，其与语音合成、图像视频生成等技术结合可以产生人类难以辨别的音视频等逼真多媒体内容，可能会被滥用于制造虚假信息、恶意引导行为，诱发舆论攻击、甚至危害国家安全。

此外，大模型存在安全与隐私问题，目前针对大模型安全漏洞的典型攻击方式包括：数据投毒攻击、对抗样本攻击、模型窃取攻击、后门攻击、指令攻击。

大模型的安全漏洞可能被攻击者利用，使得大模型关联业务面临整体失效的风险，威胁以其为基础构建的应用生态。大

模型利用海量的互联网数据进行训练，包括个人、企业甚至国家的敏感数据可能被编码进大模型参数中，因而存在数据隐私问题。例如，通过提示信息可能诱发大模型隐私数据泄露问题。

第 2 章语言大模型技术

近年来，在 Transformer 架构基础上构建的预训练语言模型为自然语言处理领域带来了一系列突破式进展，成为人工智能主流技术范式。

预训练语言模型采用“预训练+微调”方法，主要分为两步：

1）将模型在大规模无标注数据上进行自监督训练得到预训练模型;

2）将模型在下游各种自然语言处理任务上的小规模有标注数据进行微调得到适配模型。由于预训练语言模型参数越大模型表现越好，这激发了语言大模型（Large Language Model, LLM）研究热潮。

2.1 Transformer 架构

Transformer 架构是目前语言大模型采用的主流架构，其基于自注意力机制(Self-attention Mechanism)模型。其主要思想是通过自注意力机制获取输入序列的全局信息，并将这些信息通过网络层进行传递。

标准的 Transformer 如图 2-1 所示，是一个编码器-解码器架构，其编码器和解码器均由一个编码层和若干相同的 Transformer 模块层堆叠组成，编码器的 Transformer 模块层包括多头注意力层和全连接前馈网络层，这两部分通过残差连接和层归一化操作连接起来。

图 2-1 Transformer 架构

与编码器模块相比，解码器由于需要考虑解码器输出作为背景信息进行生成，其中每个 Transformer 层多了一个交叉注意力层。相比于传统循环神经网络（Recurrent Neural Network, RNN）和长短时记忆神经网络（Long Short-Term Memory Network, LSTM），Transformer 架构的优势在于它的并行计算能力，即不需要按照时间步顺序地进行计算。

Transformer 架构包含编码层与 Transformer 模块两个核心组件，编码层，主要是将输入词序列映射到连续值向量空间进行编码，每个词编码由词嵌入和位置编码构成，由二者加和得到：

1）词嵌入，在 Transformer 架构中，词嵌入是输入数据的第一步处理过程，它将词映射到高维空间中的向量，可以捕获词汇的语义信息，如词义和语法关系。每个词都被转化为一个固定长度的向量，然后被送入模型进行处理。

图 2-2 Transformer 自注意力网络[13]

Transformer模块，通过自注意力机制获取输入序列的全局信息，并将这些信息通过网络层进行传递，包括多头注意力层和全连接前馈网络层，这两部分通过残差连接和层归一化操作连接起来，Transformer 模块，由自注意力层、全连接前馈层、残差连接和层归一化操作等基本单元组成：

对于解码器，Transformer 层在 Attention 的 Softmax 之前引入了一个额外的掩码（MASK）操作，防止查询矩阵 Q 去对序列中尚未解码的后续位置来施加注意力操作。

此外，在自注意层之后还有一个额外的“交叉注意力”层，其中查询矩阵 Q 是从解码器中前一层的输出中派生出来的，而键矩阵 K 和值矩阵 V 是从编码器的最后一层的输出中转换而来的。这种设计的主要目的是为了让 Transformer 在解码时避免看到真实标签，并且同时处理来自编码器的信息。

位置间建立联系，而全连接前馈网络则在每个位置独立地对信息进行整合，这两者结合起来，使得模型既能捕获全局（长距离）的信息，又能在每个位置进行局部的信息整合。

**3）残差连接和层归一化，在每个注意力层和每个全连接前馈层之后，Transformer 都应用残差连接（Residual Connection）和层归一化（Layer Normalization）技术，这有助于在模型非常深时保留信息并确保模型性能。**具体来说，对于某一层神经网络 f (.)，残差连接和归一化层定义为 LayerNorm ( X +f (X )) 。

在 Transformer 模型被提出之后，它也衍生出了相当一部分的变体，包括在编码器和解码器中出现了不同方式的注意力机制、归一化操作、残差连接、前馈层和位置编码等。

2.2 语言大模型架构

现有的语言大模型几乎全部是以 Transformer 模型作为基础架构来构建的，不过它们在所采用的具体结构上通常存在差异，如只使用 Transformer 编码器或解码器，或者同时使用两者。从建模策略的角度，语言大模型架构大致可以分为三类：

图 2-3 语言大模型的三种典型架构

2.2.1 掩码语言建模

掩码语言建模（Masked Language Modeling, MLM）是基于Transformer 编码器的双向模型，其中 BERT和 RoBERTa是其中典型代表。这类模型通过掩码语言建模任务进行预训练，BERT中还加入了下一句预测（Next Sentence Prediction, NSP）任务。

在预训练时，模型的输入是自然语言序列。首先在原始输入中添加特殊标记 [CLS] 和 [SEP]，并且随机用[MASK] 标记替换原始序列中的字符。

掩码语言建模旨在根据上下文来最大化 [MASK]位置的标签字符的条件概率，即让模型执行“完型填空”任务。

而 [CLS] 的最终表示被用于预测两个句子是否连贯。RoBERTa 与 BERT 基本相同，但是它删去了下一句预测任务，采用了更具鲁棒性的动态掩码机制，并使用更大的批次、更长的时间和更多的数据进行训练。

2.2.2 自回归语言建模

自回归语言模型在训练时通过学习预测序列中的下一个词来建模语言，其主要是通过 Transformer 解码器来实现。自回归语言模型的优化目标为最大化对序列中每个位置的下一个词的条件概率的预测。代表性模型，包括 OpenAI 的 GPT 系列模型、Meta 的LLaMA 系列模型[30]和 Google 的 PaLM 系列模型。其中，GPT-3 是首个将模型参数扩增到千亿参数规模的预训练模型。自回归语言模型更加适用于生成任务，同时也更适用于对模型进行规模扩增。

2.2.3 序列到序列建模

序列到序列模型是建立在完整 Transformer 架构上的序列到序列模型，即同时使用编码器-解码器结构，代表性模型包括 T5和BART。

这两个模型都采用文本片段级别的掩码语言模型作为主要的预训练任务，即随机用单个 [MASK] 特殊标记替换文本中任意长度的一段字符序列，并要求模型生成填充原始的字符。序列到序列模型可以形式化地表示为最大化在给定掩码的字符序列的情况下目标字符序列的概率。

总体而言，自回归语言模型较其它预训练语言模型架构展现了更优异的情境学习、思维链推理、内容创造等能力，自回归模型架构是当前大模型的主流架构。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

程序猿李巡天

关注

16
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
AI 大模型 Transformer 架构技术白皮书 2024

1. 大模型技术概述1.1 大模型技术的发展历程2006 年 Geoffrey Hinton 提出通过逐层无监督预训练的方式来缓解由于梯度消失而导致的深层网络难以训练的问题，为神经网络的有效学习提供了重要的优化途径。此后，深度学习在计算机视觉、语音、自然语言处理等众多领域取得了突破性的研究进展，开启了新一轮深度学习的发展浪潮。
复制链接

扫一扫