大模型简介与发展历程

1. 大模型介绍

        从参数规模上看,AI 大模型先后经历了预训练模型(Pre Training)、大规模预训练模型、超大规模预训练模型三个阶段,每年网络模型的参数规模以 10 倍级以上进行提升,参数量实现了从亿级到百万亿级的突破。截止到 2024 年为止,千亿级参数规模的大模型成为主流。

        从技术架构上看,Transformer 架构是当前大模型领域主流的算法架构基础,由此形成了 GPT 和 BERT 两条主要的技术路线,其中 BERT 最有名的落地课程是谷歌的 AlphaGo。在 GPT3.0 发布后,GPT 逐渐成为大模型的主流路线。综合来看,当前几乎所有参数规模超过千亿的大型语言模型都采取 GPT 模式,如国外有 Grok、Gaulde,国内有百度文心一言,阿里发布的通义千问等。

        从大模型的支持模态上看,AI 大模型可分为大语言模型(Large Language Model,缩写 LLM),视觉大模型(Large Vision Model,缩写 LVM)、多模态大模型(Large Multimodal Model,缩写 LMM)、图网络大模型(Large Graph Model,缩写 GLM)、科学计算大模型(Large Science Model,缩写 LSM)等。AI 大模型支持的模态呈现丰富化发展、更加多样,从支持文本、图片、图像、语音单一模态下的单一任务,逐渐发展为文生图、文生视频、图解析文字等支持混合多种模态下的多种任务。

        从应用领域上看,大模型可分为 L0、L1、L2 三层。其中 L0 层面是通用基础大模型,涉及到 LLM、LVM、LMM、GLM 等等,通用大模型是具有强大泛化能力,可在不进行微调或少量微调的情况下完成多场景任务,相当于 AI 完成了“通识教育”,ChatGPT、华为盘古都是通用大模型;L1 是构建在 L0 基础上面向行业进行训练的行业大模型(包含政务、金融、制造、矿山、铁路等行业),行业大模型利用行业知识对大模型进行微调,让 AI 完成“专业教育”,以满足在能源、金融、制造、传媒等不同领域的具体需求,如金融领域的 BloombergGPT、航天-百度文心等;而 L2 层则是面是面向一些具体细分行业,通过工作流等从 L1 行业大模型中抽取的符合场景需求,进行针对具体的行业数据机型微调后,使模型处于更加细分领域的场景中应用。

2. 大模型发展阶段

        AI 大模型发展历经三个阶段,分别是萌芽期、探索期和爆发期,其中萌芽期主要是指传统神经网络模型的发展历程和阶段,以小模型为技术主导。

  • 萌芽期(1950-2005)

        以 CNN 为代表的传统神经网络模型阶段。1956 年,从计算机专家约翰·麦卡锡提出“人工智能”概念开始,AI 发展由最开始基于小规模专家知识逐步发展为基于机器学习。1980 年,卷积神经网络的雏形 CNN 诞生。1998 年,现代卷积神经网络 CNN 的基本结构 LeNet-5 诞生,机器学习方法由早期基于浅层机器学习的模型,变为了基于深度学习的模型。

        在萌芽期阶段,小模型的研究为自然语言生成、计算机视觉等领域的深入研究奠定了基础,对后续 AI 框架的迭代及大模型发展具有开创性的意义。此时在自然语言处理 NLP 的模型研究都是在研究基于给定的数据集,在特定的下游任务,如何设计网络模型结构、调整超参、提升训练技巧可以达到更高的任务分数,因此出现了 Word2vec、RNN、LSTM、GRU 等各种 NLP 模型结构。

  • 探索期(2006-2019)

        以 Transformer 为代表的全新神经网络模型阶段。2013 年,自然语言处理模型 Word2Vec 诞生,首次提出将单词转换为向量的“词向量模型”,以便计算机更好地理解和处理文本数据。2014 年,GAN(对抗式生成网络)诞生,标志着深度学习进入了生成模型研究的新阶段。2017 年,谷歌颠覆性地提出了基于自注意力机制的神经网络结构 Transformer 架构,奠定了大模型预训练算法架构的基础。

        2018 年,OpenAI 和谷歌分别发布了 GPT-1 与 BERT 大模型,其中 GPT 系列主要使用了 Transformer 架构的 Decoder 部分,BERT 系列主要使用了 Transformer 的 Encoder 部分,Transformer 的出现意味着预训练的语言大模型 LLM 成为自然语言处理 NLP 领域的主流。在探索阶段,以 Transformer 为代表的全新神经网络架构,奠定了大模型的算法架构基础,使大模型技术的性能得到了显著提升。

        此时无论是基于 Transformer 的 Encoder-Decoder 双编码结构,亦或是类似于 BERT 和 GPT 的单编码结构,业界不断涌现出了 AELM、T5、LLAMA 及其各种变体,在大语言模型 LLM 方向百家争鸣。其模型的大小大多在 1B 以下 (如 BERT-Large 340M,T5-Large 770M、GPT-2 1.5B),训练所需的数据集大小一般不超过 10B。这样的任务,大部分高校、科研院所的有限计算资源(高性能 GPU 服务器)上使用 DeepSpeed 等分布式并行框架,都可以比较方便的训练起来。

  • 爆发期(2020-至今)

        以 GPT 为代表的预训练大模型阶段。2020 年,OpenAI 公司推出了 GPT-3,模型参数规模达到了 1750 亿(175B),成为当时最大的语言模型,并且在零样本(Zero Shot)学习任务上实现了巨大性能提升。随后,更多策略如基于人类反馈的强化学习(RHLF)、代码预训练(Code Pre Training)、指令微调(SFT)等开始出现, 被用于进一步提高推理能力和任务泛化能力。不过,从 GPT-3 起,LLM 在行业的玩法变了。Scaling Laws 揭示了模型大小和数据量才是大模型能力的最关键要素,模型大小迅速从 1B 膨胀到了 175B,数据量从 10B 膨胀到了 1T 以上,随之而来的是训练成本的极速增加。

        2022 年 11 月,搭载了 GPT3.5 的 ChatGPT 横空出世,凭借逼真的自然语言交互与多场景内容生成能力,迅速引爆互联网。2023 年 3 月,最新发布的超大规模多模态预训练大模型 GPT-4,具备了多模态理解与多类型内容生成能力。在迅猛发展期,大数据、大算力和大算法完美结合,大幅提升了大模型的预训练和生成能力以及多模态多场景应用能力。

        由于计算量 FLOPs 翻了一万倍,LLM 不再是学术界能训得起的了,至少 500W 美金一次的训练成本,只有少数头部 AI 企业能有机会训练足够大规模的预训练大模型。同时数据迅速从类似 ImageNet 的开源数据集,演化为爬取、清洗、整理全互联网数据。LLM 从学术研究逐步演变成了数据工程科学。在巨量的数据、模型参数、计算资源下,模型结构和调优算法不再显得过于重要,各家大模型公司实际上比的是谁的数据收集的多、清洗的好、数据配比最优,实现大模型的工程能力最好。

        如 OpenAI ChatGPT 的巨大成功,就是在微软 Azure 强大的算力以及 wiki 等海量数据支持下,使用 Transformer 架构的 GPT 模型,坚持 Scaling Law 原则下,以及人类反馈的强化学习(RLHF)进行精调的策略下取得的巨大成功。

3. AI系统对大模型的影响

BERT(Encoder-Only)、T5(Encoder-Decoder)、GPT(Decoder-Only)分别代表了不同的架构方向,为什么在大模型时代,曾经风光无限的 BERT 家族和 T5 家族会逐渐没落了?

        从纯算法模型结构上,谷歌的 T5 是比 GPT 更加优雅的神经网络模型结构,但是由于 T5 的模型结构不是线性的,因为在 Decoder 和 Encoder 之间有复杂的连接关系(即对应的 Cross Attention 或者叫做 Cross Condition),导致 T5 在真正大规模堆叠的时候,实际上在工程领域,很难通过分布式并行高效的执行起来。因此,在目前已知的分布式并行优化上,T5 很难通过规模化扩展模型的规模,Scale 到千亿参数以上。

        针对直接基于 Decoder-Only 实现的 GPT 模型,在工程领域实现分布式并行优化,会比 T5、BERT 等网络模型更加容易实现。或许不同的算法结构对于网络模型的具体效果上互有高低,但是在模型规模继续 Scale up 的大模型时代,工程上更容易实现分布式并行、更容易扩展、训练 Token 效率更高的模型,一定是更具备优势的,这就是 AI 系统反过来影响算法发展,对算子作出的一种选择作用。

        目前预训练大模型成本居高(GPT-4 训练一次的成本超过 5000W 美金),再往上翻倍探索下一个 FLOPs 数量级也变得十分困难。因此百亿级别和千亿级别的 MoE 架构开始慢慢成为了大模型时代考虑的下一个主流方向,即如何用更低的成本,更快地训练和推理更大规模的模型。

        即使是稠密的大模型,也在探索诸如 GQA(Grouped Query Attention)等算法结构上的优化,推理阶段考虑如何使用 MHA(Multi-Head Attention)通过离线的方式转换成为 GQA,减少推理的计算量。这些算法优化并不是为了提升模型的使用效果,而是希望成倍的节省推理阶段 Inference 时的 KVCache 显存和计算峰值 Flops,从而使大模型可以在保存低时延下实现更高的吞吐性能。

        换言之,在大模型时代,如果提出新的网络模型算法结构可能有 5% 的效果提升,但是引入了额外 50% 的训练成本,那这个新的网络模型算法一定是一个负优化算法,而且不一定能够实现出来,还要支撑各种消融试验和对比实验。50% 的训练成本,基于 Scaling Laws 可以在原模型上多增加 50% 的上下文长度,或者网络模型的规模 Scale up 增大一半,可能带来的最终效果提升,远大于新设计出来的网络模型结构算法所提升的 5%。

  • 10
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值