预训练到微调：深入理解AI的上下游任务_模型的上下游任务-CSDN博客

本文链接：https://blog.csdn.net/qq_34348690/article/details/147721904

笔者在2022年开始做目标检测时，了解过上游任务和上游任务的区别，在这里举例进行初步的解释。本文以目标检测为例子来解释概念。

上下游任务是前后关系，上游任务先让模型学习到通用的特征表示，下游任务再让模型学习到特定的特征表示来解决特定问题。可以先理解成下图1所示：

图1. 上下游任务的流程

如上图所示，通过这种分工，上游任务提供"基础能力"，下游任务专注"业务落地"，形成完整的pipeline。

上游任务的核心是通过大规模预训练让模型学习通用特征表示，得到「预训练模型」，以此为后续下游任务提供强大的迁移能力。

通用特征比如COCO数据集中80个类别的330K张图片，部分数据样本如下图2所示：

COCO数据集的示例图片

图2. COCO数据集的示例图片

1️⃣数据规模大

通常使用海量数据（如目标检测数据集COOC、图片分类数据集ImageNet等）。
例如：YOLO系列在COCO上预训练、BERT在Wikipedia+BookCorpus（16GB文本）上预训练，ViT在JFT-300M（3亿张图片）上训练。

2️⃣学习通用特征

3️⃣迁移能力强大

基于「预训练模型」进行微调训练（Fine-tuning）应用到实际落地场景，解决实际问题。

微调数据集的数据量通常比预训练数据集少几十倍。