GPT系列技术发展脉络:从GPT1到GPT4

GPT系列发展时间线

  • 2017年:Transformer架构提出(Google)。
  • 2018年(GPT-1)
    • 首次基于Transformer的生成式预训练模型。
    • 核心:无监督预训练(预测下一个词) + 监督微调(SFT)。
    • 参数规模:1.1亿,12层Decoder,768维向量。
    • 数据集:7000本书的文本。
  • 2019年(GPT-2)
    • 强调零样本学习(Zero-Shot),无需微调直接执行任务。
    • 参数规模:15亿,48层Decoder,1600维向量。
    • 数据集:Reddit高质量链接(WebText,800万文档)。
  • 2020年(GPT-3)
    • 引入上下文学习(In-Context Learning) 具体使用 Few-Shot Learning(小样本学习),通过提供少量样本进行学习。
    • 参数规模:1750亿,96层Decoder,12288维向量。
    • 数据集:混合Common Crawl、WebText、书籍、维基百科(3000亿Token)。
  • 2022年(InstructGPT/GPT-3.5)
    • 加入人类反馈强化学习(RLHF),对齐人类偏好。
    • 关键步骤:监督微调(SFT)→ 奖励模型(RM)训练 → PPO强化学习。
  • 2023年(GPT-4)
    • 核心改进:混合专家模型(MOE),多专家协同提升效率。
    • 技术报告未公开细节,但强调数据质量与规模优化。

GPT-1核心技术解析

训练方法

  • 预训练阶段

    使用BooksCorpus数据集(7000本书籍,约5GB文本)

    目标函数: L ∗ pretrain = − ∑ ∗ i = 1 n log ⁡ P ( x i ∣ x < i ) \mathcal{L}*{\text{pretrain}}=-\sum*{i=1}^n \log P(x_i|x_{<i}) Lpretrain=i=1nlogP(xix<i)

  • 微调阶段

    GPT-1的微调阶段较为原始,直接去掉预训练模型的线性层,换上一个新的线性层,用于特定任务的输出。

    支持分类/蕴含/相似度/多选题四类任务

局限

单任务微调需重建适配层,无法实现多任务统一处理


GPT-2技术突破

核心创新

  • 参数量提升至15亿(48层Decoder,隐藏层1600维)
  • 引入WebText数据集(Reddit高赞链接抓取,40GB文本)
  • 提出Zero-shot Learning理念:
    利用预训练数据中的隐式任务描述(如"Translate English to French: [input]→[output]")

关键实验

在语言模型、阅读理解、翻译等8项任务中,15亿参数模型Zero-shot性能接近监督学习baseline


GPT-3里程碑式升级

架构改进

  • 参数量1750亿(96层Decoder,隐藏层12288维)
  • 分8个规模验证Scaling Law(1.25亿至1750亿)

训练数据

混合Common Crawl(60%)、WebText2(22%)、Books(8%)、Wikipedia(3%)。总token量300B

In-context Learning机制

  • Zero-shot:仅提供任务描述(“Translate English to French:”)
  • One-shot:提供1个示例
  • Few-shot:提供3-5个示例
    实验显示175B模型Few-shot性能超越微调版GPT-1

Instruct GPT(GPT-3.5)与RLHF

三阶段训练流程

  1. SFT(监督微调)
    • 13k人工编写高质量问答对
    • 16个epoch训练,学习率衰减策略
  2. RM(奖励模型)
    • 33k人工标注偏好数据(同一prompt的4个回答排序)
    • 6B参数模型,输出标量奖励值
    • 损失函数: L ∗ RM = − log ⁡ σ ( r ∗ θ ( x , y w ) − r θ ( x , y l ) ) \mathcal{L}*{\text{RM}}=-\log\sigma(r*\theta(x,y_w)-r_\theta(x,y_l)) LRM=logσ(rθ(x,yw)rθ(x,yl))
  3. PPO(近端策略优化)
    • 目标函数: L ∗ RL = E [ r ∗ θ ( x , y ) ] − β ⋅ KL ( p RL ∣ ∣ p SFT ) + γ ⋅ L pretrain \mathcal{L}*{\text{RL}}=\mathbb{E}[r*\theta(x,y)]-\beta\cdot\text{KL}(p_{\text{RL}}||p_{\text{SFT}})+\gamma\cdot\mathcal{L}_{\text{pretrain}} LRL=E[rθ(x,y)]βKL(pRL∣∣pSFT)+γLpretrain
    • KL散度约束防止模型偏离基准分布

效果:1.3B参数RLHF模型人类偏好率超越175B基础模型


GPT-4架构解密

核心特征

  • MOE(Mixture of Experts)架构:16个专家网络,每token激活2个专家
    • 原理:将Feed Forward拆分为多个“专家”子网络,每个任务动态选择激活部分专家。
    • 优势:降低计算成本,提升模型容量和任务适应性。
  • 训练规模
    • 13万亿tokens(包含文本与多模态数据)
    • 混合精度训练,万亿级GPU集群算力
  • 多模态支持:文本/图像联合编码器

技术演进对比表

版本参数量核心创新训练数据评估指标
GPT-1117M生成式预训练框架5GB文本任务特定微调精度
GPT-21.5BZero-shot Learning40GB文本零样本任务泛化性
GPT-3175BIn-context Learning300B tokensFew-shot性能
GPT-3.5175BRLHF对齐13k指令数据人类偏好率
GPT-4~1.8TMOE+多模态13T tokens复杂任务解决能力
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值