GPT系列技术发展脉络：从GPT1到GPT4

反战车老虎钳

已于 2025-02-04 16:33:55 修改

阅读量732

点赞数 17

分类专栏：自学AI 文章标签： gpt 人工智能

于 2025-02-04 14:42:58 首次发布

本文链接：https://blog.csdn.net/u014661768/article/details/145437707

版权

10 篇文章

订阅专栏

2017年：Transformer架构提出（Google）。
2018年（GPT-1）：
- 首次基于Transformer的生成式预训练模型。
- 核心：无监督预训练（预测下一个词） + 监督微调（SFT）。
- 参数规模：1.1亿，12层Decoder，768维向量。
- 数据集：7000本书的文本。
2019年（GPT-2）：
- 强调零样本学习（Zero-Shot），无需微调直接执行任务。
- 参数规模：15亿，48层Decoder，1600维向量。
- 数据集：Reddit高质量链接（WebText，800万文档）。
2020年（GPT-3）：
- 引入上下文学习（In-Context Learning） 具体使用 Few-Shot Learning（小样本学习），通过提供少量样本进行学习。
- 参数规模：1750亿，96层Decoder，12288维向量。
- 数据集：混合Common Crawl、WebText、书籍、维基百科（3000亿Token）。
2022年（InstructGPT/GPT-3.5）：
- 加入人类反馈强化学习（RLHF），对齐人类偏好。
- 关键步骤：监督微调（SFT）→ 奖励模型（RM）训练 → PPO强化学习。
2023年（GPT-4）：
- 核心改进：混合专家模型（MOE），多专家协同提升效率。
- 技术报告未公开细节，但强调数据质量与规模优化。

训练方法

预训练阶段：

使用BooksCorpus数据集（7000本书籍，约5GB文本）

目标函数： $\mathcal{L}*{\text{pretrain}}=-\sum*{i=1}^n \log P(x_i|x_{<i})$
微调阶段：

GPT-1的微调阶段较为原始，直接去掉预训练模型的线性层，换上一个新的线性层，用于特定任务的输出。

支持分类/蕴含/相似度/多选题四类任务

局限：

单任务微调需重建适配层，无法实现多任务统一处理

核心创新：

参数量提升至15亿（48层Decoder，隐藏层1600维）
引入WebText数据集（Reddit高赞链接抓取，40GB文本）
提出Zero-shot Learning理念：
利用预训练数据中的隐式任务描述（如"Translate English to French: [input]→[output]"）

关键实验：

在语言模型、阅读理解、翻译等8项任务中，15亿参数模型Zero-shot性能接近监督学习baseline

架构改进：

训练数据：

混合Common Crawl（60%）、WebText2（22%）、Books（8%）、Wikipedia（3%）。总token量300B

In-context Learning机制：

三阶段训练流程：

SFT（监督微调）：
- 13k人工编写高质量问答对
- 16个epoch训练，学习率衰减策略
RM（奖励模型）：
- 33k人工标注偏好数据（同一prompt的4个回答排序）
- 6B参数模型，输出标量奖励值
- 损失函数： $\mathcal{L}*{\text{RM}}=-\log\sigma(r*\theta(x,y_w)-r_\theta(x,y_l))$
PPO（近端策略优化）：
- 目标函数： $\mathcal{L}*{\text{RL}}=\mathbb{E}[r*\theta(x,y)]-\beta\cdot\text{KL}(p_{\text{RL}}||p_{\text{SFT}})+\gamma\cdot\mathcal{L}_{\text{pretrain}}$
- KL散度约束防止模型偏离基准分布

效果：1.3B参数RLHF模型人类偏好率超越175B基础模型

核心特征：

MOE（Mixture of Experts）架构：16个专家网络，每token激活2个专家
- 原理：将Feed Forward拆分为多个“专家”子网络，每个任务动态选择激活部分专家。
- 优势：降低计算成本，提升模型容量和任务适应性。
训练规模：
- 13万亿tokens（包含文本与多模态数据）
- 混合精度训练，万亿级GPU集群算力
多模态支持：文本/图像联合编码器