预训练（Pre-training）和微调（Fine-tuning）

上元星如雨

于 2025-04-01 20:48:05 发布

阅读量577

点赞数 5

分类专栏：深度学习文章标签：计算机视觉

本文链接：https://blog.csdn.net/qq_56921730/article/details/146922592

版权

深度学习专栏收录该内容

13 篇文章

订阅专栏

在深度学习领域，预训练（Pre-training） 和 微调（Fine-tuning） 是模型训练的两个关键阶段，尤其在自然语言处理（NLP）和计算机视觉（CV）中广泛应用。它们的核心目的是通过迁移学习（Transfer Learning）提升模型性能，减少训练成本。下面详细解释两者的概念、区别和典型应用。

1. 预训练（Pre-training）

定义

预训练是指在大规模通用数据集上训练模型，使其学习到通用的特征表示（如语言规律、视觉特征）。这一阶段通常是计算密集型任务，依赖海量数据和强大算力。

核心特点

数据规模大：使用公开数据集（如 Wikipedia、Common Crawl、ImageNet）。
任务通用：通常是自监督学习（如掩码语言建模 MLM、对比学习）。
模型作为“基础”：生成的模型称为 预训练模型（如 BERT、GPT、ResNet）。

典型方法

NLP：
- BERT（双向语言模型，通过 MLM 训练）。
- GPT（自回归语言模型，预测下一个词）。
CV：
- 监督学习（如 ImageNet 分类训练的 ResNet）。
- 自监督学习（如 MoCo、MAE）。

示例

BERT 的预训练：
输入句子："The cat [MASK] on the mat."
模型学习预测 [MASK] 的位置应填 "sat"。

2. 微调（Fine-tuning）

定义

微调是在预训练模型的基础上，针对特定下游任务（如情感分析、医学图像分类）进行小规模调整，使模型适应新任务。这一阶段通常只需少量标注数据。

核心特点

数据规模小：依赖任务相关的小数据集（如几千条标注样本）。
任务特定：调整模型参数以适应新任务（如修改分类头）。
高效迁移：复用预训练学到的通用特征，避免从头训练。

典型方法

NLP：
- 在 BERT 后添加分类层，用于文本分类。
CV：
- 冻结 ResNet 的前几层，仅训练最后的全连接层。

示例

基于 BERT 的情感分析微调：
预训练模型：BERT
微调任务：判断句子 "I love this movie!" 的情感（正面/负面）。
只需在 BERT 后加一个二分类层，用少量标注数据训练。

3. 预训练 vs. 微调

对比项	预训练（Pre-training）	微调（Fine-tuning）
数据规模	海量数据（TB 级）	小规模数据（MB-GB 级）
计算成本	高（需 GPU/TPU 集群）	低（单卡可完成）
任务目标	学习通用特征	适应特定任务
模型改动	通常不修改架构	可能添加任务特定层（如分类头）
典型模型	BERT、GPT、ResNet	微调后的 BERT、ResNet-Finetuned