大模型简介与发展历程

最新推荐文章于 2025-02-03 15:45:55 发布

香菜烤面包

最新推荐文章于 2025-02-03 15:45:55 发布

阅读量1.6k

点赞数 13

分类专栏： # AI 大模型 AI 系统与算法部署文章标签：人工智能

本文链接：https://blog.csdn.net/daydayup858/article/details/141167666

版权

AI 大模型同时被 2 个专栏收录

13 篇文章

订阅专栏

AI 系统与算法部署

11 篇文章

订阅专栏

1. 大模型介绍

从参数规模上看，AI 大模型先后经历了预训练模型（Pre Training）、大规模预训练模型、超大规模预训练模型三个阶段，每年网络模型的参数规模以 10 倍级以上进行提升，参数量实现了从亿级到百万亿级的突破。截止到 2024 年为止，千亿级参数规模的大模型成为主流。

从技术架构上看，Transformer 架构是当前大模型领域主流的算法架构基础，由此形成了 GPT 和 BERT 两条主要的技术路线，其中 BERT 最有名的落地课程是谷歌的 AlphaGo。在 GPT3.0 发布后，GPT 逐渐成为大模型的主流路线。综合来看，当前几乎所有参数规模超过千亿的大型语言模型都采取 GPT 模式，如国外有 Grok、Gaulde，国内有百度文心一言，阿里发布的通义千问等。

从大模型的支持模态上看，AI 大模型可分为大语言模型（Large Language Model，缩写 LLM），视觉大模型（Large Vision Model，缩写 LVM）、多模态大模型（Large Multimodal Model，缩写 LMM）、图网络大模型（Large Graph Model，缩写 GLM）、科学计算大模型（Large Science Model，缩写 LSM）等。AI 大模型支持的模态呈现丰富化发展、更加多样，从支持文本、图片、图像、语音单一模态下的单一任务，逐渐发展为文生图、文生视频、图解析文字等支持混合多种模态下的多种任务。

从应用领域上看，大模型可分为 L0、L1、L2 三层。其中 L0 层面是通用基础大模型，涉及到 LLM、LVM、LMM、GLM 等等，通用大模型是具有强大泛化能力，可在不进行微调或少量微调的情况下完成多场景任务，相当于 AI 完成了“通识教育”，ChatGPT、华为盘古都是通用大模型；L1 是构建在 L0 基础上面向行业进行训练的行业大模型（包含政务、金融、制造、矿山、铁路等行业），行业大模型利用行业知识对大模型进行微调，让 AI 完成“专业教育”，以满足在能源、金融、制造、传媒等不同领域的具体需求，如金融领域的 BloombergGPT、航天-百度文心等；而 L2 层则是面是面向一些具体细分行业，通过工作流等从 L1 行业大模型中抽取的符合场景需求，进行针对具体的行业数据机型微调后，使模型处于更加细分领域的场景中应用。

2. 大模型发展阶段

AI 大模型发展历经三个阶段，分别是萌芽期、探索期和爆发期，其中萌芽期主要是指传统神经网络模型的发展历程和阶段，以小模型为技术主导。

萌芽期（1950-2005）

以 CNN 为代表的传统神经网络模型阶段。1956 年，从计算机专家约翰·麦卡锡提出“人工智能”概念开始，AI 发展由最开始基于小规模专家知识逐步发展为基于机器学习。1980 年，卷积神经网络的雏形 CNN 诞生。1998 年，现代卷积神经网络 CNN 的基本结构 LeNet-5 诞生，机器学习方法由早期基于浅层机器学习的模型，变为了基于深度学习的模型。

在萌芽期阶段，小模型的研究为自然语言生成、计算机视觉等领域的深入研究奠定了基础，对后续 AI 框架的迭代及大模型发展具有开创性的意义。此时在自然语言处理 NLP 的模型研究都是在研究基于给定的数据集，在特定的下游任务，如何设计网络模型结构、调整超参、提升训练技巧可以达到更高的任务分数，因此出现了 Word2vec、RNN、LSTM、GRU 等各种 NLP 模型结构。

探索期（2006-2019）

以 Transformer 为代表的全新神经网络模型阶段。2013 年，自然语言处理模型 Word2Vec 诞生，首次提出将单词转换为向量的“词向量模型”，以便计算机更好地理解和处理文本数据。2014 年，GAN（对抗式生成网络）诞生，标志着深度学习进入了生成模型研究的新阶段。2017 年，谷歌颠覆性地提出了基于自注意力机制的神经网络结构 Transformer 架构，奠定了大模型预训练算法架构的基础。

2018 年，OpenAI 和谷歌分别发布了 GPT-1 与 BERT 大模型，其中 GPT 系列主要使用了 Transformer 架构的 Decoder 部分，BERT 系列主要使用了 Transformer 的 Encoder 部分，Transformer 的出现意味着预训练的语言大模型 LLM 成为自然语言处理 NLP 领域的主流。在探索阶段，以 Transformer 为代表的全新神经网络架构，奠定了大模型的算法架构基础，使大模型技术的性能得到了显著提升。

此时无论是基于 Transformer 的 Encoder-Decoder 双编码结构，亦或是类似于 BERT 和 GPT 的单编码结构，业界不断涌现出了 AELM、T5、LLAMA 及其各种变体，在大语言模型 LLM 方向百家争鸣。其模型的大小大多在 1B 以下（如 BERT-Large 340M，T5-Large 770M、GPT-2 1.5B），训练所需的数据集大小一般不超过 10B。这样的任务，大部分高校、科研院所的有限计算资源（高性能 GPU 服务器）上使用 DeepSpeed 等分布式并行框架，都可以比较方便的训练起来。

爆发期（2020-至今）

以 GPT 为代表的预训练大模型阶段。2020 年，OpenAI 公司推出了 GPT-3，模型参数规模达到了 1750 亿（175B），成为当时最大的语言模型，并且在零样本（Zero Shot）学习任务上实现了巨大性能提升。随后，更多策略如基于人类反馈的强化学习（RHLF）、代码预训练（Code Pre Training）、指令微调（SFT）等开始出现, 被用于进一步提高推理能力和任务泛化能力。不过，从 GPT-3 起，LLM 在行业的玩法变了。Scaling Laws 揭示了模型大小和数据量才是大模型能力的最关键要素，模型大小迅速从 1B 膨胀到了 175B，数据量从 10B 膨胀到了 1T 以上，随之而来的是训练成本的极速增加。

2022 年 11 月，搭载了 GPT3.5 的 ChatGPT 横空出世，凭借逼真的自然语言交互与多场景内容生成能力，迅速引爆互联网。2023 年 3 月，最新发布的超大规模多模态预训练大模型 GPT-4，具备了多模态理解与多类型内容生成能力。在迅猛发展期，大数据、大算力和大算法完美结合，大幅提升了大模型的预训练和生成能力以及多模态多场景应用能力。

由于计算量 FLOPs 翻了一万倍，LLM 不再是学术界能训得起的了，至少 500W 美金一次的训练成本，只有少数头部 AI 企业能有机会训练足够大规模的预训练大模型。同时数据迅速从类似 ImageNet 的开源数据集，演化为爬取、清洗、整理全互联网数据。LLM 从学术研究逐步演变成了数据工程科学。在巨量的数据、模型参数、计算资源下，模型结构和调优算法不再显得过于重要，各家大模型公司实际上比的是谁的数据收集的多、清洗的好、数据配比最优，实现大模型的工程能力最好。

如 OpenAI ChatGPT 的巨大成功，就是在微软 Azure 强大的算力以及 wiki 等海量数据支持下，使用 Transformer 架构的 GPT 模型，坚持 Scaling Law 原则下，以及人类反馈的强化学习（RLHF）进行精调的策略下取得的巨大成功。

3. AI系统对大模型的影响

BERT（Encoder-Only）、T5（Encoder-Decoder）、GPT（Decoder-Only）分别代表了不同的架构方向，为什么在大模型时代，曾经风光无限的 BERT 家族和 T5 家族会逐渐没落了？

从纯算法模型结构上，谷歌的 T5 是比 GPT 更加优雅的神经网络模型结构，但是由于 T5 的模型结构不是线性的，因为在 Decoder 和 Encoder 之间有复杂的连接关系（即对应的 Cross Attention 或者叫做 Cross Condition），导致 T5 在真正大规模堆叠的时候，实际上在工程领域，很难通过分布式并行高效的执行起来。因此，在目前已知的分布式并行优化上，T5 很难通过规模化扩展模型的规模，Scale 到千亿参数以上。

针对直接基于 Decoder-Only 实现的 GPT 模型，在工程领域实现分布式并行优化，会比 T5、BERT 等网络模型更加容易实现。或许不同的算法结构对于网络模型的具体效果上互有高低，但是在模型规模继续 Scale up 的大模型时代，工程上更容易实现分布式并行、更容易扩展、训练 Token 效率更高的模型，一定是更具备优势的，这就是 AI 系统反过来影响算法发展，对算子作出的一种选择作用。

目前预训练大模型成本居高（GPT-4 训练一次的成本超过 5000W 美金），再往上翻倍探索下一个 FLOPs 数量级也变得十分困难。因此百亿级别和千亿级别的 MoE 架构开始慢慢成为了大模型时代考虑的下一个主流方向，即如何用更低的成本，更快地训练和推理更大规模的模型。

即使是稠密的大模型，也在探索诸如 GQA（Grouped Query Attention）等算法结构上的优化，推理阶段考虑如何使用 MHA（Multi-Head Attention）通过离线的方式转换成为 GQA，减少推理的计算量。这些算法优化并不是为了提升模型的使用效果，而是希望成倍的节省推理阶段 Inference 时的 KVCache 显存和计算峰值 Flops，从而使大模型可以在保存低时延下实现更高的吞吐性能。

换言之，在大模型时代，如果提出新的网络模型算法结构可能有 5% 的效果提升，但是引入了额外 50% 的训练成本，那这个新的网络模型算法一定是一个负优化算法，而且不一定能够实现出来，还要支撑各种消融试验和对比实验。50% 的训练成本，基于 Scaling Laws 可以在原模型上多增加 50% 的上下文长度，或者网络模型的规模 Scale up 增大一半，可能带来的最终效果提升，远大于新设计出来的网络模型结构算法所提升的 5%。