GPT-2（Generative Pre-trained Transformer 2）模型

最新推荐文章于 2025-04-08 11:01:10 发布

彬彬侠

最新推荐文章于 2025-04-08 11:01:10 发布

阅读量875

点赞数 20

分类专栏：大模型文章标签： gpt transformer GPT-2 OpenAI NLG Hugging Face transformers

本文链接：https://blog.csdn.net/u013172930/article/details/146072604

版权

大模型专栏收录该内容

98 篇文章

订阅专栏

GPT-2（Generative Pre-trained Transformer 2）模型

GPT-2（Generative Pre-trained Transformer 2）是 OpenAI 在 2019 年提出的 第二代 GPT 模型，是一个 大规模自回归语言模型，用于 文本生成（NLG）任务。

论文：Language Models are Unsupervised Multitask Learners

GPT-2 以 GPT-1 为基础，通过 扩大模型规模和数据规模，显著提升了 文本生成质量、连贯性和可控性，成为 第一个能够生成高质量长文本的 Transformer 语言模型。

1. GPT-2 的核心思想

GPT-2 主要基于：

更大的 Transformer 解码器（Decoder）架构
更大规模的训练数据
更强的无监督学习能力
自回归文本生成
多任务适应性（Zero-shot, Few-shot, Fine-tuning）

1.1 更大的 Transformer 解码器（Decoder）架构

GPT-2 采用 仅包含解码器（Decoder-only）的 Transformer 架构：

输入嵌入（Word Embeddings）：将文本转换为向量表示。
位置编码（Positional Encoding）：保留单词顺序信息。
多头掩码自注意力（Masked Self-Attention）：只能看到过去的单词，确保文本按顺序生成。
前馈神经网络（Feed-Forward Network, FFN）：对每个 token 进行非线性变换。
输出层：生成下一个单词的概率分布。

与 BERT 双向建模（Bidirectional Masking） 不同，GPT-2 只能从左到右建模（Autoregressive Masking），适用于 文本生成任务。

1.2 更大规模的训练数据

GPT-2 采用 更大规模的数据集 进行训练：

GPT-1 训练数据：BooksCorpus（8GB）
GPT-2 训练数据：WebText（40GB），包含 80 亿个单词

相比 GPT-1，GPT-2 训练数据增加 5 倍，来源更加多样，包括：

新闻文章
维基百科
社交媒体
书籍和论坛文本

更大的数据量 提升了 GPT-2 的语言理解和生成能力。

1.3 更强的无监督学习能力

GPT-2 采用 完全无监督训练：

不需要人工标注数据。
只使用 自回归语言建模（Autoregressive LM, ARLM） 进行训练。
训练目标：给定前 t 个单词，预测下一个单词：
$P(w_1, w_2, ..., w_T) = \prod_{t=1}^{T} P(w_t | w_1, ..., w_{t-1})$

GPT-2 通过无监督学习掌握了丰富的语言知识，可用于 多种 NLP 任务，如：

文本生成
问答
翻译
摘要

1.4 自回归文本生成

GPT-2 采用 自回归（Autoregressive）生成，即：

逐步预测下一个单词（token），直到生成完整的句子。

示例

输入："The capital of France is"
GPT-2 预测："The capital of France is Paris, which is known for its beautiful architecture and rich history."

GPT-2 可以生成连贯、上下文一致的长文本，相比 GPT-1 生成质量更高。

1.5 多任务适应性（Zero-shot, Few-shot, Fine-tuning）

GPT-2 具备 零样本（Zero-shot）、少样本（Few-shot）和微调（Fine-tuning） 适应能力：

Zero-shot Learning：无需任务数据，直接用 GPT-2 处理任务。
Few-shot Learning：仅用少量示例，让 GPT-2 适应新任务。
Fine-tuning：在特定数据集上微调，提升特定任务表现。

GPT-2 首次展现了强大的多任务适应能力，无需微调即可 在多种 NLP 任务上取得不错的表现。

2. GPT-2 的参数规模

GPT-2 采用 四种不同规模的模型：

模型	参数量	层数	隐藏维度	注意力头数	训练数据
GPT-2 Small	117M	12 层	768	12	40GB
GPT-2 Medium	345M	24 层	1024	16	40GB
GPT-2 Large	762M	36 层	1280	20	40GB
GPT-2 XL	1.5B	48 层	1600	25	40GB

相比 GPT-1（1.17 亿参数），GPT-2 最大版本（1.5B）参数量是 GPT-1 的 10 倍以上，生成能力大幅提升。

3. GPT-2 在 Hugging Face `transformers` 库中的使用

Hugging Face 提供了 GPT-2 预训练模型，可以直接用于文本生成。

3.1 安装 `transformers`

pip install transformers

3.2 加载 GPT-2 并生成文本

from transformers import AutoTokenizer, AutoModelForCausalLM

# 加载 GPT-2 预训练模型
model_name = "gpt2"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

# 输入文本
input_text = "The future of artificial intelligence is"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids

# 生成文本
output = model.generate(input_ids, max_length=50)
print(tokenizer.decode(output[0], skip_special_tokens=True))

3.3 控制文本生成（温度、Top-k、Top-p）

output = model.generate(
    input_ids,
    max_length=50,
    temperature=0.7,  # 控制随机性，值越低越确定
    top_k=50,  # 仅从前 50 个可能的单词中采样
    top_p=0.9,  # 仅从累积概率为 0.9 的单词中采样
    do_sample=True  # 允许随机采样
)
print(tokenizer.decode(output[0], skip_special_tokens=True))

调整 温度（temperature）、Top-k 采样、Top-p 采样 可以 控制 GPT-2 生成文本的多样性和连贯性。

4. GPT-2 的应用场景

GPT-2 适用于 各种自然语言生成（NLG）任务：

文本生成（新闻、小说、广告文案）
对话系统（聊天机器人）
机器翻译
问答系统
自动摘要
代码生成

5. GPT-2 与其他 Transformer 模型的对比

模型	架构	训练优化	适用任务
GPT-1	仅解码器	1.17 亿参数，BooksCorpus	文本生成
GPT-2	仅解码器	更大规模数据（40GB），1.5B 参数	长文本生成
GPT-3	仅解码器	175B 参数，强大的零样本能力	通用 NLP 任务
BERT	仅编码器	Masked LM，双向训练	文本理解
T5	编码器-解码器	统一任务格式	翻译、摘要、问答