大模型发展的历史脉络:从RNN、Transformer到多模态AI

好的,我将整理大模型(特别是Transformer之后)的发展脉络,涵盖计算机视觉、自然语言处理和多模态等领域。内容将包括:

  • 关键技术路线的演变,如从RNN到LSTM再到Transformer、GPT系列等
  • 重要的模型架构与技术突破
  • 关键人物及其贡献
  • 重要的里程碑事件
  • 影响深远的关键论文,包括概念性突破和工程实现

完成后,我会与你分享详细的整理报告。

大模型发展的历史脉络:从RNN、Transformer到多模态AI

引言

Transformer架构问世以来,人工智能领域的大模型进入了飞速发展的新阶段。为了理解这场革命,我们需要回顾Transformer之前的技术基础(如早期的循环神经网络 RNN 和 长短期记忆网络 LSTM),以及Transformer之后在自然语言处理(NLP)、计算机视觉(CV)和多模态领域的一系列关键模型与事件。本文将按时间脉络梳理这一发展历程,重点关注技术路线演变、重要模型架构与技术突破、关键人物贡献、里程碑事件以及影响深远的代表性论文,并分析这些进展对AI发展的影响。

早期:RNN 与 LSTM 的兴起 (1980s–2016)

循环神经网络(RNN)在20世纪80年代末被提出,用于处理序列数据。Jeff Elman 在1990年的工作引入了简单的“Elman网络”RNN,用隐含层的循环连接来记忆序列信息 (Transformers in AI: The Attention Timeline, From the 1990s to Present | Towards AI) (Transformers in AI: The Attention Timeline, From the 1990s to Present | Towards AI)。然而,基本RNN难以捕获长距离的依赖关系,因为梯度会在长序列反向传播时消失或爆炸。为了解决这一问题,1997年 Sepp Hochreiter 和 Jürgen Schmidhuber 提出了长短期记忆网络(LSTM) (Transformers in AI: The Attention Timeline, From the 1990s to Present | Towards AI)。LSTM通过引入记忆单元和门控机制(包括输入门、遗忘门和输出门)来控制信息的保存和遗忘,从而能够记住更长时间跨度的信息 (Transformers in AI: The Attention Timeline, From the 1990s to Present | Towards AI)。凭借克服长期依赖的问题,LSTM 在语音识别、机器翻译等序列预测任务中取得了当时最好的效果 (Transformers in AI: The Attention Timeline, From the 1990s to Present | Towards AI)。

在2010年代中期之前,RNN(尤其是LSTM和稍后的门控循环单元GRU)是序列建模的主流方法。例如,2014年Sutskever等人提出了序列到序列(Seq2Seq)学习框架,将一个LSTM编码器和一个LSTM解码器结合,实现了从一个序列(如源语言句子)映射到另一个序列(如目标语言句子) (Transformers in AI: The Attention Timeline, From the 1990s to Present | Towards AI) (Transformers in AI: The Attention Timeline, From the 1990s to Present | Towards AI)。Seq2Seq模型首次成功应用于英法机器翻译,证明了端到端训练神经网络完成翻译的可行性 (Transformers in AI: The Attention Timeline, From the 1990s to Present | Towards AI)。同年,Cho等人提出了GRU模型,简化了LSTM的结构并取得类似性能,使训练长序列模型更加高效 (Transformers in AI: The Attention Timeline, From the 1990s to Present | Towards AI)。

注意力机制也在这一时期萌芽。Bahdanau等人在2014年底(论文发表于2015年)在Seq2Seq框架上引入了**“加性”注意力机制** (Transformers in AI: The Attention Timeline, From the 1990s to Present | Towards AI)。该机制让解码器在生成目标序列的每个词时,都能动态关注源序列中相关的部分,而不再受限于固定长度的向量表示。这一改进显著提升了长句翻译的效果,克服了Seq2Seq在处理长句时性能急剧下降的问题 (Transformers in AI: The Attention Timeline, From the 1990s to Present | Towards AI)。随后Luong等人在2015年进一步区分了全局注意力局部注意力并进行了对比,提出了更高效的局部注意力变体来加速翻译 (Transformers in AI: The Attention Timeline, From the 1990s to Present | Towards AI) (Transformers in AI: The Attention Timeline, From the 1990s to Present | Towards AI)。注意力机制的引入为后来的Transformer奠定了思想基础:模型可以学会“在哪儿看”和“看多少”。

在计算机视觉领域,虽然RNN/LSTM不直接应用于图像,卷积神经网络(CNN)的发展与上述进程几乎并行。Yann LeCun在90年代开发了卷积网络LeNet用于手写字符识别。真正令深度学习在视觉上引爆的是2012年的AlexNet:Hinton团队的Alex Krizhevsky等人在ImageNet图像识别竞赛中以巨大优势夺冠,比当时第二名的错误率低了近10个百分点 (AlexNet and ImageNet: The Birth of Deep Learning | Pinecone)。这标志着深度卷积网络开始主导视觉领域。随后VGG网路(2014)加深了层数,ResNet(2015)引入残差连接解决了网络加深时的退化问题,将CNN的深度推进到152层。可以说,到2016年前后,NLP领域依靠RNN/LSTM+注意力取得突破(如Google在2016年用LSTM+注意力构建了神经网络翻译系统,9个月内性能超越了研发十年的统计机器翻译系统 (Transformers in AI: The Attention Timeline, From the 1990s to Present | Towards AI)),而CV领域依靠深CNN大幅提升了图像识别性能。这些进展共同铺垫了Transformer的诞生条件:一方面是对长程依赖建模和并行计算更高效方法的需求,另一方面是大数据集和强大算力(GPU)的普及为更大模型训练提供了可能 (History of generative AI) (AlexNet and ImageNet: The Birth of Deep Learning | Pinecone)。

Transformer 的革命 (2017)

2017年可以说是**“Transformer元年”。来自谷歌Brain的Vaswani等人在论文《Attention is All You Need》中提出了革新的Transformer架构** (Transformers in AI: The Attention Timeline, From the 1990s to Present | Towards AI)。Transformer摒弃了以往序列模型中使用的循环和卷积结构,完全基于自注意力机制来建模序列信息 (Transformers in AI: The Attention Timeline, From the 1990s to Present | Towards AI)。“自注意力”指模型在处理输入序列的某个元素时,可以直接参考序列中任意位置的其他元素,并根据相关性动态分配权重。这种机制允许一次计算序列中所有元素两两之间的关联(注意力权重),大大提高并行度 (Transformers in AI: The Attention Timeline, From the 1990s to Present | Towards AI)。

Transformer包含编码器和解码器模块,每一层都通过多头自注意力和前馈网络进行变换。相比LSTM等循环网络需要按时间步逐步处理序列,Transformer的并行计算特性使其训练速度更快,同时在长距离依赖建模上效果更好 (Transformers in AI: The Attention Timeline, From the 1990s to Present | Towards AI) (Transformers in AI: The Attention Timeline, From the 1990s to Present | Towards AI)。在论文中,作者通过英德、英法翻译任务验证了Transformer的优越性能:在英德翻译上BLEU分数比当时最好的模型高出超过2分,而训练速度只需前人模型的一小部分时间(在8块GPU上训练3.5天即可达到先进水平) (Transformers in AI: The Attention Timeline, From the 1990s to Present | Towards AI)。Transformer架构的提出被认为是深度学习架构的一座里程碑,它不仅在机器翻译等NLP任务上迅速超越了RNN+注意力模型的表现 (Transformers in AI: The Attention Timeline, From the 1990s to Present | Towards AI),更重要的是提供了一种全新的模型范式,为后续各种大模型的诞生奠定了统一的基础架构。

Transformer带来的关键技术突破多头自注意力机制和完全并行化的序列建模。自注意力使模型能够灵活建模任意长度的依赖,而不受序列位置距离的限制;多头机制让模型可以从不同子空间关注不同模式的信息;完全并行化则利用硬件加速大幅缩短训练时间 (Transformers in AI: The Attention Timeline, From the 1990s to Present | Towards AI)。凭借这些优势,Transformer很快被证明不仅适用于翻译,在语言建模、问答等NLP任务上都取得了极高的效果。可以说,2017年的Transformer论文标志着深度学习进入“注意力时代” (Transformers in AI: The Attention Timeline, From the 1990s to Present | Towards AI)。

NLP领域的大模型崛起 (2018–2020)

Transformer问世后,研究者很快意识到其潜力,并在NLP领域引发了预训练语言模型的热潮。2018年是至关重要的一年,出现了两种不同但互补的预训练范式:

  • GPT(Generative Pre-trained Transformer)系列:由OpenAI的Alec Radford等人推出。第一版GPT在2018年发布,使用单向(自回归)Transformer解码器架构,对海量未标注文本语料进行语言模型预训练,然后微调用于下游任务 (1. History Of Large Language Models | From 1940 To 2023 » AI Researcher)。GPT强调由左向右生成文本的能力。2019年,GPT-2 发布,引入更大的模型(15亿参数)和更多训练数据(来自800万网页的文本) (1. History Of Large Language Models | From 1940 To 2023 » AI Researcher)。GPT-2能够生成连贯且富有语法的长段文本,展示了语言模型生成能力的惊人飞跃,也引发了关于AI文本滥用的讨论。当时OpenAI一度因为GPT-2的逼真文本生成能力而谨慎发布模型。随后的2020年,OpenAI发布了GPT-3,参数规模骤增至1750亿 (1. History Of Large Language Models | From 1940 To 2023 » AI Researcher)。GPT-3充分利用了Transformer的可扩展性,通过堆叠96层Transformer解码器训练得到。其新颖之处在于展示了**少样本学习(Few-Shot Learning)**的能力:即使不进行微调,只需给出几个示例,GPT-3就能在翻译、问答、写作等任务上产生可观的结果 (1. History Of Large Language Models | From 1940 To 2023 » AI Researcher)。这表明足够大的模型可以在预训练中隐含学习到广泛的知识和技能。一时间,“参数规模=能力”的思路在业界形成,推动了“大力出奇迹”的潮流。

  • BERT(Bidirectional Encoder Representations from Transformers):由Google的Jacob Devlin等人于2018年底提出。与GPT不同,BERT采用双向Transformer编码器架构,通过掩蔽语言模型(MLM)下一句预测等预训练任务,在海量文本上学习深层双向语义表示 ( Pre-training, Transformers, and Bi-directionality - KDnuggets)。简单来说,BERT在预训练时会随机遮住句子中的一些词,让模型根据上下文来预测这些词,从而学到对上下文的理解表示 ( Pre-training, Transformers, and Bi-directionality - KDnuggets)。BERT的出现让“预训练-微调”范式在NLP任务中大放异彩。2019年初BERT发布后,在包括阅读理解、自然语言推理等11项NLP任务上全面刷新了当时的最佳成绩 ( Pre-training, Transformers, and Bi-directionality - KDnuggets)。BERT证明了大规模预训练可以学习出通用的语言特征,微调到各个任务时都能显著提升效果。这一成果使得预训练模型迅速成为NLP标配。随后,各种变体如RoBERTa、ALBERT、XLNet等相继出现,进一步改进预训练方法或架构,但基本思想均沿袭BERT:充分利用双向Transformer和大数据进行自监督预训练。

可以看出,2018-2019年NLP领域的范式转变:从以往针对每个任务单独训练模型,转向先用海量无标注语料预训练一个庞大模型,再通过少量有标注数据微调来适配具体任务 ( Pre-training, Transformers, and Bi-directionality - KDnuggets)。这一转变极大地提升了模型对语言的理解和生成能力,也促使模型规模越做越大。除了OpenAI和Google外,Facebook AI在2019年训练了RoBERTa(对BERT预训练做了优化),微软在2020年公布了170亿参数的Turing-NLG模型等,各大公司竞相推出数十亿甚至千亿参数级的语言模型。为了承载这些超大模型,新的分布式训练技术应运而生(详见后文“模型优化与分布式训练”部分)。总的来说,到2020年,NLP领域已经从Transformer的概念验证阶段,进入了大规模预训练语言模型全面开花的时代。

计算机视觉:从CNN到Vision Transformer (2012–2020)

在计算机视觉(CV)领域,Transformer的影响在稍晚一些才显现。但值得注意的是,大模型和预训练思想也在CV中逐步兴起。

如前所述,2012年的AlexNet是CV领域深度学习的起点 (AlexNet and ImageNet: The Birth of Deep Learning | Pinecone)。之后几年,CNN架构不断演进(VGG、GoogLeNet、ResNet等),加上ImageNet等大数据集的推动,视觉模型的性能飞跃式提升。Yann LeCun作为CNN之父及Facebook首席AI科学家,为视觉领域奠定了深度学习基础,他也在2010年代后期大力倡导自监督学习,希望将预训练理念从NLP拓展到CV。

然而,CNN毕竟有其局限性:卷积核固然善于提取局部图像特征,但缺乏对全局关系的显式建模。受Transformer在NLP成功的启发,研究者开始尝试将自注意力机制引入视觉模型。例如,Facebook AI在2018年提出了Non-local Neural Networks,用自注意力模块捕捉视频帧或图像各位置之间的长程依赖。真正的突破发生在2020年,Dosovitskiy等人发表了论文**“Vision Transformer (ViT)”** (Transformers in AI: The Attention Timeline, From the 1990s to Present | Towards AI)。ViT直接将图像切分为固定尺寸的块(patch),将每个块线性嵌入为向量序列,然后喂入Transformer编码器进行处理 (Vision Transformer: What It Is & How It Works [2024 Guide] - V7 Labs)。这个思路将图像当作“词序列”来对待,彻底用Transformer取代了卷积。实验结果表明,在足够大规模的数据集上预训练后(例如在谷歌私有的300亿图像数据集JFT-300M上预训练,再在ImageNet上微调),ViT可以达到甚至超过最先进卷积网络的分类精度 (Vision Transformer (ViT) - Hugging Face)。这是视觉领域的范式转移:Transformer同样可以成为视觉主力模型,尤其在数据量巨大时表现出色。

ViT发布后,视觉Transformer迅速成为研究热点。微软研究院提出了Swin Transformer(2021),通过层次化的移窗注意力提高ViT在高分辨率图像上的效率,拿下了多项视觉基准的冠军。Facebook等也推出了将Transformer用于目标检测、分割的模型(如DETR, 2020),实现了端到端的目标检测Transformer架构。这些工作让Transformer在CV领域站稳脚跟,与CNN分庭抗礼。

与此同时,CV领域也开始借鉴NLP的预训练思路。例如,2021年的CLIP模型就是跨模态预训练的成功案例,它利用图文对数据学习图像和文本的联合表示(详见下节)。还有一些研究(如Facebook的SEER项目、Google的SimCLR等)尝试在海量无标注图像上进行自监督预训练,然后微调用于下游视觉任务,取得不俗成绩。这表明无论NLP还是CV,大规模预训练+微调正成为通用套路。

总之,虽然Transformer最先在NLP中引发革命,但很快在2020年后延伸到视觉领域,诞生了Vision Transformer等重要模型,使得视觉模型也开始享受“注意力机制”和“大规模预训练”带来的红利 (Transformers in AI: The Attention Timeline, From the 1990s to Present | Towards AI)。这为多模态模型的结合打下了基础,因为如果文本和图像都能由Transformer来表示,那么融合二者就变得更加自然。

多模态融合与生成模型的崛起 (2021)

多模态 AI指同时处理多种数据模态(如语言、视觉、声音等)的模型。在Transformer统一架构的加持下,多模态模型在2021年前后取得了重大突破。其中两个具有里程碑意义的模型是OpenAI的 CLIPDALL-E

  • CLIP (Contrastive Language-Image Pre-training):由Alec Radford等人在2021年提出 (CLIP: Connecting text and images | OpenAI)。CLIP利用4亿对图像和文本说明在Transformer上进行对比学习预训练:给定一幅图像,模型学习选择与之描述匹配的那句话;反之亦然。经过这种训练后,CLIP模型可以将图像和文本投影到同一向量空间中。在实践中,CLIP能够实现零样本图像识别:不需要专门为某个新任务再训练,只需提供类别的文本名称,CLIP就能在对应图像中选出最相关的类别 (CLIP: Connecting text and images | OpenAI)。例如,只要输入标签“猫”“狗”,CLIP可以直接对一张新图像判断是猫还是狗,而不需要在猫狗数据上额外训练。这种**“零样本”**能力非常惊艳,显示出模型从海量图文数据中学到了丰富的通用知识。CLIP的出现标志着多模态预训练模型的成熟——模型可以同时看图和读字,并把两者联系起来理解。

  • DALL-E:也是OpenAI在2021年发布的模型,名字源自画家达利和机器人瓦力。DALL-E是一个基于Transformer的文本生成图像模型 (DALL·E 2 | OpenAI)。第一版DALL-E使用了125亿参数的Transformer,将输入的文本描述编码后,逐字生成图像的像素表示(通过压缩表示来生成)。DALL-E展示了AI根据自然语言创造性地产生图像的能力:从“两个拿着雨伞的猫”到“寿司形状的椅子”,几乎可以生成任意新奇组合的图像。2022年,OpenAI又发布了改进的DALL-E 2,改用扩散模型作为生成器,大幅提高了图像的清晰度和真实感 (DALL·E 2 | OpenAI)。DALL-E系列表明,多模态生成(text-to-image)成为可能,也由此引发了业界对生成模型的极大兴趣。

多模态发展的同时,生成式AI在文本和图像领域全面爆发。文本方面,有OpenAI在2022年推出的GPT-3.5系列以及后来的ChatGPT,前者通过指令微调(InstructGPT)让语言模型学会更好地遵循人类指令,后者则通过与人类对话的数据进一步优化,形成对话机器人(下面详述)。图像方面,2022年涌现了扩散模型(Diffusion Models)一统江湖的局面。除了DALL-E 2,Google推出了Imagen,稳定AI公司推出了开源的Stable Diffusion,这些扩散模型能根据文本生成令人惊艳的高清图像,并在艺术设计等领域得到广泛应用。

可以看到,2021年前后是多模态与生成模型的拐点:多模态预训练(如CLIP)让AI同时掌握视觉和语言的关联,跨越了不同模态之间的鸿沟;而强大的生成模型(GPT-3、DALL-E等)的出现,让AI从“理解”拓展到“创造”,能够自主地产生新的内容。这些进展进一步扩大了AI模型的应用边界。

模型规模爆炸与Mixture-of-Experts技术 (2020–2021)

随着模型性能与规模常常正相关,研究者不断尝试训练更大的模型来获得更强的能力。GPT-3的成功就是一个明证:参数增加带来了质变的效果。然而,直接增加Transformer的层数和宽度会导致计算和存储成本爆炸式增长。如何高效地训练和运行万亿级参数的模型,成为一个迫切的问题。在这一背景下,Mixture of Experts (MoE,专家混合) 技术重获关注。

MoE的核心思想可以追溯到1990年代初:通过多组不同的“专家”网络,各自专攻不同输入区域,由一个门控网络动态选择哪个专家来处理每个输入 (What is mixture of experts? | IBM)。这样,模型的总体参数可以非常庞大,但每次推理只激活其中一部分参数,从而降低实际计算量 (What is mixture of experts? | IBM)。谷歌的研究者 Noam Shazeer 等人在2017年将MoE引入深度学习,提出了**“稀疏门控MoE层”,成功训练了当时参数最多的神经网络之一 (What is mixture of experts? | IBM)。不过直到Transformer时代,MoE才真正显示出巨大价值。2021年,Google Brain的Fedus等人在论文“Switch Transformer”中,将MoE应用于Transformer,用128个并行专家模型替换标准Transformer中的前馈层**,并采用每个token只路由到单一专家(Top-1路由)的策略,成功将模型扩展到1.6万亿参数 (What is mixture of experts? | IBM)!Switch Transformer在保持模型效果的同时,将预训练速度提高了近4倍 (What is mixture of experts? | IBM)。这证明了稀疏激活是扩大模型规模的有效途径之一:模型拥有海量参数(容量),但每次只激活小部分(计算开销低),兼得“大模型的能力”和“较低的计算成本” (What is mixture of experts? | IBM) (What is mixture of experts? | IBM)。

除了MoE架构,本时期还有许多工程上的突破支撑起大模型训练。首先是分布式训练框架的发展:像NVIDIA的Megatron-LM(2019) (NVIDIA's NLP Model "Megatron-LM" is the Largest Transformer Ever ...)和微软的DeepSpeed(2020)等。这些框架提出了模型并行、流水线并行、张量并行等技术,将模型的不同部分切分到多个GPU/TPU上同时训练。例如,NVIDIA演示了使用8路模型并行和64路数据并行,在512块GPU上训练一个83亿参数的GPT-2模型 (NVIDIA's NLP Model "Megatron-LM" is the Largest Transformer Ever ...)。DeepSpeed提供的ZeRO优化器通过划分模型状态(如梯度、优化器参数)到不同GPU,消除了数据并行中的冗余,大幅降低内存开销 ([1910.02054] ZeRO: Memory Optimizations Toward Training Trillion Parameter Models)。据报告,ZeRO可以在400块GPU上以超线性加速训练超过1000亿参数的模型,达成15 PetaFLOPS的吞吐率 ([1910.02054] ZeRO: Memory Optimizations Toward Training Trillion Parameter Models)。这些技术突破使得像百亿、千亿级参数的模型训练成为可能,不再需要无限制地增加单卡显存或显著牺牲batch size ([1910.02054] ZeRO: Memory Optimizations Toward Training Trillion Parameter Models)。

综上,2020-2021年是“大模型基础设施”逐步完善的时期:一方面有MoE等新架构提高模型参数利用效率,另一方面有分布式并行、内存优化等系统层面的创新支撑超大模型的训练。它们为之后更大更强的模型(如GPT-3之后的GPT-4等)的诞生扫清了道路。

ChatGPT时代与生成式AI的普及 (2022–2023)

到了2022年,大模型及生成式AI不再局限于科研范畴,而是全面走向公众视野。关键事件之一便是OpenAI的ChatGPT。ChatGPT是基于GPT-3.5系列模型(介于GPT-3和GPT-4之间)的对话机器人,于2022年11月30日开放公测。一经推出,ChatGPT凭借能与人类连续对话、回答各种问题以及编写代码、撰写文章的能力,在社交媒体上迅速走红。在短短5天内,ChatGPT的用户数即突破了100万 (Number of ChatGPT Users (Feb 2025));两个月内月活跃用户估计超过1亿,成为史上用户增长最快的消费级应用 (ChatGPT sets record for fastest-growing user base - analyst note | Reuters)。这种现象级的关注凸显了大语言模型在实用对话场景中的巨大潜力。

ChatGPT背后的技术亮点在于对GPT-3模型进行了指令调优和人类反馈强化学习(RLHF)。OpenAI先用大量指令问答数据微调GPT-3(得到InstructGPT),增强模型遵循指令的能力,然后通过人类与模型互动、对模型回答打分,训练一个奖励模型,再用策略优化(PPO算法)让ChatGPT学会给出让人类更满意的回答。这一系列流程极大提升了模型回答的有用性和安全性,使得ChatGPT展现出比GPT-3原版更可靠的对话能力。这种对齐(Alignment)技术的成功也成为后来各大公司改进自家对话模型的范本。

在ChatGPT引领下,生成式AI在2022年末到2023年迎来了爆发式的产业应用浪潮:微软迅速将GPT整合进其必应(Bing)搜索,引发“AI 搜索引擎大战”;硅谷创业公司纷纷涌现,围绕AI内容生成(图像、文本、音频、代码等)推出各种产品。普通大众也开始广泛使用诸如ChatGPT、Midjourney(生成图像)等AI工具来辅助日常工作和创作。从技术演进角度看,大模型正在从研究过渡到实用,并对社会产生深远影响。

2023年亦有多个重要进展值得一提:OpenAI在3月发布了GPT-4,参数规模进一步提高,并首次具备了多模态能力——GPT-4不仅能处理文本,还能理解图像输入的内容,在一些测试中展现出接近人类水平的推理能力。Google在同年将其Brain团队与DeepMind合并,组建新的Google DeepMind,加强其在通用AI(AGI)道路上的投入。Meta(Facebook)开放了名为LLaMA的大型语言模型给学术研究者获取,相对较小的参数(70亿到650亿)却取得与GPT-3相当的性能,通过开源进一步推动了研究社区对大模型的掌握。可以预见,在2023年之后的几年里,大模型间的竞赛将更趋激烈,各大科技公司和研究机构都在投入前所未有的资源,希望拓展模型的能力边界,例如让模型更高效地学习、多模态融合、更强的推理和记忆等。

Google DeepMind的重要突破事件

在梳理大模型发展史时,Google DeepMind的一系列里程碑事件也不容忽视。虽然有些不是Transformer架构的语言模型,但它们代表了AI在不同领域取得的重大突破,彰显了深度学习和大模型的威力:

  • AlphaGo (2016):DeepMind开发的AlphaGo程序以4:1的比分击败了围棋世界冠军李世石,引起全球轰动 (Google DeepMind AI Beats Human Lee Sedol at Go - Business Insider)。围棋被视为极其复杂的博弈,传统AI望尘莫及,AlphaGo的胜利标志着强化学习+深度神经网络(CNN和MCTS搜索)的组合取得历史性成就。这一胜利被誉为AI发展史上的里程碑,证明了在复杂决策领域深度学习也大有可为。

  • AlphaGo Zero / AlphaZero (2017):在AlphaGo的基础上,DeepMind更进一步推出了AlphaGo Zero(不使用任何人类对局数据,从零自我对弈学习围棋)和通用版的AlphaZero(同一程序掌握围棋、国际象棋、日本将棋)。这些系统完全通过自我学习达到超越人类顶尖水平,展示了大模型自我进化的潜力。

  • AlphaFold 2 (2020):这是DeepMind在生命科学领域的革命性突破。蛋白质折叠被称为“生物学中的登月难题”——预测一条氨基酸序列折叠成的三维结构困扰科学界50年。AlphaFold2利用深度神经网络(包含注意力机制的Transformer变体)来建模氨基酸之间的关系,在2020年的CASP14竞赛中将预测精度提升到接近实验解析水平 (Google DeepMind and Isomorphic Labs introduce AlphaFold 3 AI model)。2021年《Nature》论文公布了AlphaFold2的细节,轰动了生物和AI领域。这一系统被誉为**“AI 在科学领域最重要的突破”** (Google DeepMind and Isomorphic Labs introduce AlphaFold 3 AI model),其代码和数据库公开后,全球的生物学家已经利用它预测了数百万种蛋白质结构,加速新药和新材料研发。值得注意的是,AlphaFold2的模型中大量使用了Transformer的多层自注意力来捕捉氨基酸序列的长程相互作用,可见Transformer思想在科学AI中也大有可为。

  • AlphaCode (2022):这是DeepMind将大模型应用于计算机编程的尝试。AlphaCode基于Transformer语言模型,训练生成计算机代码。通过在编程竞赛数据上的训练和大规模生成候选答案的方法,AlphaCode在代码竞赛模拟中达到了参赛者平均水准(排在人类选手前约54%) (DeepMind's AlphaCode Conquers Coding, Performing as Well as ...)。虽然与顶尖人类尚有差距,但这是AI在创造性编程任务上的重要一步,展示了大模型理解问题、生成可执行代码的潜力。

综上,Google DeepMind的这些突破(围棋、人造智能博弈、科学计算、自动编程)覆盖了广泛领域,表明大模型+深度学习不仅改变了语言和视觉任务,在游戏智能、生物科学、编程等方面也正在产生深远影响。这些事件也进一步推动公众和学术界对通用人工智能(AGI)的讨论:当模型足够强大时,是否能胜任更通用、更复杂的认知任务?这是未来AI发展要面对的问题。

关键人物及贡献

大模型蓬勃发展的背后,离不开一批杰出科学家的开创性工作和持续推动。以下列出一些关键人物及其贡献:

  • Ashish Vaswani 等:Transformer架构的提出者之一。作为2017年论文《Attention is All You Need》的第一作者,Vaswani将“自注意力”这一概念发扬光大 (Transformers in AI: The Attention Timeline, From the 1990s to Present | Towards AI)。Transformer的成功奠定了后续GPT、BERT等模型的基础。可以说,没有Vaswani等人的突破性工作,就没有注意力机制统治AI模型的今天。

  • Alec Radford:OpenAI研究员,GPT系列和CLIP的主要作者之一。他领导了2018年GPT-1、2019年GPT-2模型的研发,将生成式预训练应用于语言模型,开拓了参数规模快速增长的路线 (1. History Of Large Language Models | From 1940 To 2023 » AI Researcher) (1. History Of Large Language Models | From 1940 To 2023 » AI Researcher)。此外,他还是2021年CLIP论文的第一作者,将视觉和语言预训练结合,实现在开放领域的零样本学习 (CLIP: Connecting text and images | OpenAI)。Radford的工作体现了OpenAI在大模型上的两条重要路线:更大的语言模型跨模态模型

  • Jacob Devlin:Google研究员,BERT之父。Devlin在2018年提出BERT模型,引入了双向Transformer预训练的理念,通过掩码预测训练出通用的语言理解模型 ( Pre-training, Transformers, and Bi-directionality - KDnuggets)。BERT一举刷新众多NLP基准,让业界认识到预训练模型的威力,并直接催生了此后的预训练浪潮。Devlin因此在NLP领域享有盛誉,其贡献证明了上下文双向编码和大规模语料训练可以极大提升模型理解语言的能力。

  • Yann LeCun:深度学习“三巨头”之一,卷积神经网络的开创者。LeCun在80-90年代就发明了CNN(用于手写字符识别的LeNet),此后在贝尔实验室开发了OCR和卷积网络的商业应用。2010年代,他在Facebook担任首席AI科学家,推动了深度学习在社交媒体和计算机视觉上的应用。他提出“自监督学习是智能的下一突破”的观点,致力于让AI通过大量无标注数据学到世界模型。LeCun于2018年与Hinton、Bengio共同获得图灵奖,以表彰其在深度学习基本算法和训练上的贡献 ([N] Hinton, LeCun, Bengio receive ACM Turing Award - Reddit)。他如今仍活跃在学术界,提出如能量模型等新思路,构想未来AI应具备预测世界的能力。可以说,LeCun为计算机视觉引入了深度学习技术,并一直在引领自主学习的方向。

  • Geoffrey Hinton:被誉为“深度学习教父”,其影响遍及整个深度学习历史。从1980年代与Rumelhart提出反向传播算法训练多层神经网络,到2006年与学生发表深度信念网络(引发了新一轮深度学习热潮),再到2012年指导学生创造AlexNet夺得ImageNet冠军,Hinton在每个关键节点都有贡献。他还提出过**“胶囊网络”(Capsule Networks)等新颖架构思想,不断挑战现有范式。2018年图灵奖授予Hinton/Bengio/LeCun,认可了他们在深度神经网络理论和工程上的突破 ([N] Hinton, LeCun, Bengio receive ACM Turing Award - Reddit)。在大模型时代,Hinton虽然未直接参与GPT/BERT等模型研发,但他的学生和思想无处不在(如AlexNet作者Krizhevsky、Transformer作者之一Illia Sutskever都是Hinton的学生)。值得一提的是,Hinton在2023年从Google退休后公开发出对AI风险的警示,再次引发业界对AI安全与伦理**的重视。

  • Yoshua Bengio:深度学习“三巨头”之一,加拿大蒙特利尔大学教授。Bengio在90年代就致力于神经网络的研究,2000年代与Hinton平行地探索无监督预训练,发表了许多关于语言模型、序列模型的论文。他的学生包括提出GRU网络的Cho和提出神经机器翻译注意力机制的Bahdanau (Transformers in AI: The Attention Timeline, From the 1990s to Present | Towards AI)。Bengio本人在2014年前后推进了神经机器翻译的发展,也是词向量embedding和语言模型研究的重要人物。在获得2018年图灵奖后,Bengio将更多精力投入到AI社会影响和伦理研究,倡导负责任的AI。他的技术贡献主要在于早期推进了深度学习在序列数据和自然语言处理上的应用,为后来Transformer在NLP的大获成功铺平了道路。

当然,推动大模型发展的远不止上述几位。比如:Ilya Sutskever(Seq2Seq论文作者之一、OpenAI的联合创始人和Chief Scientist)、Demis Hassabis(DeepMind创始人,主导AlphaGo/AlphaFold等突破)、John Carmack(推进通用人工智能的工程奇才)等等。在此不一一列举。正是众多研究者在算法、模型、硬件各方面的持续创新和努力,才促成了大模型技术在最近几年井喷式的进步。

关键论文与突破成果汇总

最后,我们按主题列出若干影响深远的关键论文和技术成果,它们分别在概念上或工程上为大模型发展做出了重大贡献:

  • 2017:《Attention Is All You Need》(Vaswani 等,NIPS 2017) (Transformers in AI: The Attention Timeline, From the 1990s to Present | Towards AI):开创性地提出了Transformer架构,详述了多头自注意力完全基于注意力的编码-解码网络,证明无需循环和卷积也能达到当时机器翻译的最佳效果。此论文奠定了此后GPT、BERT等所有基于Transformer模型的基础,被引用超过数万次,成为现代深度学习最具影响力的工作之一。

  • 2018:《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》(Devlin 等,NAACL 2019) ( Pre-training, Transformers, and Bi-directionality - KDnuggets):首次展示了通过大规模双向预训练获取通用语言表示的威力。BERT模型在出版时刷新了包括GLUE、SQuAD在内的11项NLP任务成绩,证明预训练模型可以“一模多用”迁移到各类语言理解任务。这篇论文引爆了NLP领域的预训练潮流,开启了NLP模型“预训练→微调”的新范式。

  • 2018/2019:OpenAI GPT 系列(Radford 等,OpenAI 技术报告 2018 & 2019):包括GPT-1和GPT-2。这两版模型证明了自回归语言模型预训练的有效性。GPT-2 (1. History Of Large Language Models | From 1940 To 2023 » AI Researcher)能够生成长篇连贯的文本,在故事续写等生成任务上效果惊人,凸显了参数规模和训练数据对生成质量的巨大作用。虽然GPT系列论文以技术报告形式发表,但其影响力通过OpenAI的博客和模型发布体现出来,为之后更大型的GPT-3奠定了基础。

  • 2020:《Language Models are Few-Shot Learners》(Brown 等,NeurIPS 2020):即GPT-3论文 (1. History Of Large Language Models | From 1940 To 2023 » AI Researcher)。虽然这篇论文本身没有提出新的模型架构,但通过对比实验系统展示了语言模型的规模效应:随着参数从1亿增加到1750亿,GPT的性能持续提升,并出现了能通过提示完成各种任务的少样本学习能力。这一工作为“大模型可以成为通用智能的雏形”提供了有力证据,并推动业界开始追求更大的模型和更大的训练数据。

  • 2020:《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》(Dosovitskiy 等,ICLR 2021):即ViT论文。该论文将Transformer成功应用于图像分类任务,提出用固定大小图像块作为输入序列的Vision Transformer架构。结果表明,当数据量足够大时,纯Transformer在图像任务上能媲美甚至超越卷积网络。这项工作将注意力机制带入CV领域,对后来视觉Transformer类模型(Swin Transformer等)的出现有直接推动作用。

  • 2021:《Learning Transferable Visual Models From Natural Language Supervision》(Radford 等,ICML 2021) (CLIP: Connecting text and images | OpenAI):即OpenAI CLIP模型论文。它证明了利用网络抓取的图文对进行对比学习,可以训练出同时理解图像和文本的统一模型。在无任何针对下游任务训练的情况下,CLIP在ImageNet等数据集上以零样本方式达到与有监督模型相当的精度 (CLIP: Connecting text and images | OpenAI)。CLIP的成功使得跨模态预训练成为AI领域新的热点,也为日后如DALL-E 2、Imagen这类图文生成模型打下基础。

  • 2021:《Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity》(Fedus 等,Journal of ML Research 2022) (What is mixture of experts? | IBM):该论文详细介绍了Switch Transformer(谷歌的MoE版本)如何实现1万亿+参数模型的高效训练。通过每个输入token只激活1个专家(k=1)的稀疏路由策略,极大简化了MoE的通信和计算,实现了相对于同等规模密集模型的4倍提速 (What is mixture of experts? | IBM)。这项工作标志着稀疏专家模型正式走入实用,为进一步大规模化提供了可行方案。也正因为此,业界开始尝试训练包含数万亿参数的稀疏模型(例如谷歌后来的GLaM模型等)。

  • 2020:《ZeRO: Memory Optimizations Toward Training Trillion Parameter Models》(Rajbhandari 等,SC 2020) ([1910.02054] ZeRO: Memory Optimizations Toward Training Trillion Parameter Models):微软提出的ZeRO优化器,通过划分模型各类状态(参数、梯度、优化器)到不同设备,消除了数据并行中的内存冗余。论文展示了ZeRO可以在不使用模型并行的情况下训练130亿参数模型 ([1910.02054] ZeRO: Memory Optimizations Toward Training Trillion Parameter Models),以及利用400 GPU训练百亿参数模型时实现超线性加速 ([1910.02054] ZeRO: Memory Optimizations Toward Training Trillion Parameter Models)。ZeRO及其扩展(ZeRO-Offload、ZeRO-Infinity)为大模型训练提供了模块化的内存优化方案,被集成在DeepSpeed库中广泛使用,是大模型工程方面的重要里程碑。

  • AI重大应用突破:除以上架构和算法论文外,一些刊登在顶级期刊的AI应用成果也极大提升了大模型的知名度和影响力。例如:AlphaGo (Nature 2016) 证明深度强化学习可达超人水准;AlphaFold2 (Nature 2021) (Google DeepMind and Isomorphic Labs introduce AlphaFold 3 AI model)解决生物难题,将Transformer用于科学领域;**华为诺亚的PanGuα、百度文心等中文大模型论文(2021–2022)**推动了非英文大模型的进步;OpenAI的DALLE-2 (2022)Google Imagen (2022) 展示了扩散模型卓越的图像生成效果等。这些成果不仅拓展了技术边界,也吸引了公众和产业对大模型的关注。

以上只是大模型发展历程中具有代表性的一部分论文和成果。随着研究的推进,未来肯定还会有新的重要工作出现,例如当前备受期待的更强多模态模型、具备推理和记忆能力的新型架构、更加高效的训练算法等等。

结语

从RNN、LSTM到Transformer,再到当今席卷各个领域的大模型,我们见证了人工智能在短短数十年间的飞跃式发展。这一脉络清晰地表明了几大关键要素:架构创新(如自注意力机制)提供了质变契机,大规模预训练海量数据赋予模型前所未有的知识获取能力,模型规模和算力提升不断发掘出AI更多的潜能。与此同时,每一次重大突破的背后都有人才的辛勤耕耘:无论是“三巨头”奠基深度学习,还是各大团队推动Transformer及后续模型登上舞台。

可以预见,大模型将在未来相当长一段时间内继续主导AI研究与应用的发展。一方面,模型可能继续变大、变强,涌现出更接近通用智能的能力;另一方面,如何让模型更高效、更安全、更可控也将是重要课题。在自然语言、计算机视觉等领域之外,大模型还将向决策智能、科学研究、机器人控制等更多场景扩展。而多模态融合亦使得AI离理解和创造人类世界的全貌更近一步。

总而言之,Transformer之后的大模型时代才刚刚开始。正如深度学习三位奠基人在领取图灵奖时所言:“深度神经网络只是揭开了人工智能的冰山一角。” 展望未来,我们有理由相信,在清晰的理论指引和不断的工程创新下,大模型将继续乘风破浪,推动人工智能向更智慧、更通用的方向发展,为科技和人类社会创造出更加深远的影响。

by ChatGPT 深入研究

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值