GPT系列发展时间线
- 2017年:Transformer架构提出(Google)。
- 2018年(GPT-1):
- 首次基于Transformer的生成式预训练模型。
- 核心:无监督预训练(预测下一个词) + 监督微调(SFT)。
- 参数规模:1.1亿,12层Decoder,768维向量。
- 数据集:7000本书的文本。
- 2019年(GPT-2):
- 强调零样本学习(Zero-Shot),无需微调直接执行任务。
- 参数规模:15亿,48层Decoder,1600维向量。
- 数据集:Reddit高质量链接(WebText,800万文档)。
- 2020年(GPT-3):
- 引入上下文学习(In-Context Learning) 具体使用 Few-Shot Learning(小样本学习),通过提供少量样本进行学习。
- 参数规模:1750亿,96层Decoder,12288维向量。
- 数据集:混合Common Crawl、WebText、书籍、维基百科(3000亿Token)。
- 2022年(InstructGPT/GPT-3.5):
- 加入人类反馈强化学习(RLHF),对齐人类偏好。
- 关键步骤:监督微调(SFT)→ 奖励模型(RM)训练 → PPO强化学习。
- 2023年(GPT-4):
- 核心改进:混合专家模型(MOE),多专家协同提升效率。
- 技术报告未公开细节,但强调数据质量与规模优化。
GPT-1核心技术解析
训练方法
-
预训练阶段:
使用BooksCorpus数据集(7000本书籍,约5GB文本)
目标函数: L ∗ pretrain = − ∑ ∗ i = 1 n log P ( x i ∣ x < i ) \mathcal{L}*{\text{pretrain}}=-\sum*{i=1}^n \log P(x_i|x_{<i}) L∗pretrain=−∑∗i=1nlogP(xi∣x<i)
-
微调阶段:
GPT-1的微调阶段较为原始,直接去掉预训练模型的线性层,换上一个新的线性层,用于特定任务的输出。
支持分类/蕴含/相似度/多选题四类任务
局限:
单任务微调需重建适配层,无法实现多任务统一处理
GPT-2技术突破
核心创新:
- 参数量提升至15亿(48层Decoder,隐藏层1600维)
- 引入WebText数据集(Reddit高赞链接抓取,40GB文本)
- 提出Zero-shot Learning理念:
利用预训练数据中的隐式任务描述(如"Translate English to French: [input]→[output]")
关键实验:
在语言模型、阅读理解、翻译等8项任务中,15亿参数模型Zero-shot性能接近监督学习baseline
GPT-3里程碑式升级
架构改进:
- 参数量1750亿(96层Decoder,隐藏层12288维)
- 分8个规模验证Scaling Law(1.25亿至1750亿)
训练数据:
混合Common Crawl(60%)、WebText2(22%)、Books(8%)、Wikipedia(3%)。总token量300B
In-context Learning机制:
- Zero-shot:仅提供任务描述(“Translate English to French:”)
- One-shot:提供1个示例
- Few-shot:提供3-5个示例
实验显示175B模型Few-shot性能超越微调版GPT-1
Instruct GPT(GPT-3.5)与RLHF
三阶段训练流程:
- SFT(监督微调):
- 13k人工编写高质量问答对
- 16个epoch训练,学习率衰减策略
- RM(奖励模型):
- 33k人工标注偏好数据(同一prompt的4个回答排序)
- 6B参数模型,输出标量奖励值
- 损失函数: L ∗ RM = − log σ ( r ∗ θ ( x , y w ) − r θ ( x , y l ) ) \mathcal{L}*{\text{RM}}=-\log\sigma(r*\theta(x,y_w)-r_\theta(x,y_l)) L∗RM=−logσ(r∗θ(x,yw)−rθ(x,yl))
- PPO(近端策略优化):
- 目标函数: L ∗ RL = E [ r ∗ θ ( x , y ) ] − β ⋅ KL ( p RL ∣ ∣ p SFT ) + γ ⋅ L pretrain \mathcal{L}*{\text{RL}}=\mathbb{E}[r*\theta(x,y)]-\beta\cdot\text{KL}(p_{\text{RL}}||p_{\text{SFT}})+\gamma\cdot\mathcal{L}_{\text{pretrain}} L∗RL=E[r∗θ(x,y)]−β⋅KL(pRL∣∣pSFT)+γ⋅Lpretrain
- KL散度约束防止模型偏离基准分布
效果:1.3B参数RLHF模型人类偏好率超越175B基础模型
GPT-4架构解密
核心特征:
- MOE(Mixture of Experts)架构:16个专家网络,每token激活2个专家
- 原理:将Feed Forward拆分为多个“专家”子网络,每个任务动态选择激活部分专家。
- 优势:降低计算成本,提升模型容量和任务适应性。
- 训练规模:
- 13万亿tokens(包含文本与多模态数据)
- 混合精度训练,万亿级GPU集群算力
- 多模态支持:文本/图像联合编码器
技术演进对比表
版本 | 参数量 | 核心创新 | 训练数据 | 评估指标 |
---|---|---|---|---|
GPT-1 | 117M | 生成式预训练框架 | 5GB文本 | 任务特定微调精度 |
GPT-2 | 1.5B | Zero-shot Learning | 40GB文本 | 零样本任务泛化性 |
GPT-3 | 175B | In-context Learning | 300B tokens | Few-shot性能 |
GPT-3.5 | 175B | RLHF对齐 | 13k指令数据 | 人类偏好率 |
GPT-4 | ~1.8T | MOE+多模态 | 13T tokens | 复杂任务解决能力 |