探险之旅：当预训练“越火热”下游反而失宠-CSDN博客

本文链接：https://blog.csdn.net/weixin_36829761/article/details/146535612

在人工智能的星空中，大型语言模型就像一艘满载知识的飞船，人们长期以来相信“越多数据，越好”——预训练过程中投入的每一点标记（token）都能转化为更好的基础性能，最终在微调（后训练）中表现得更为卓越。然而，最新研究却揭示了一个耐人寻味的悖论：扩展预训练规模不仅不能确保下游任务能力的提升，反而可能使得模型在微调阶段变得更加脆弱，最终呈现出性能下降的“灾难性过训练”现象。正如登山者在不断累积装备后，由于负重过大反而难以攀登陡峭山巅，这一现象引发了我们对预训练设计方法的深思与重新审视。

———————————————————————

🌍 大局观：预训练与下游适应性的矛盾

传统观点认为，大规模预训练能使模型在语言理解、知识提取和推理等方面得以提升。正如图 1 所示，随着预训练 token 数量不断增加，模型在原始任务上的表现持续改进，困惑度（perplexity）越来越低。但是，实际实验却发现，当我们用这些基础模型进行指令微调或多模态微调后，情况却并非一帆风顺。举例来说，预训练了 3T token 的 OLMo-1B 模型在多个标准基准测试上（如 AlpacaEval、ARC 等）的微调后表现竟比仅预训练 2.3T token 的对应模型低超过 2%！这正是“灾难性过训练”的真实写照。
在这里插入图片描述

研究者们将这个现象归结为两个核心原因：
① 随着预训练过程延长，模型不断累积新特征，然而与此同时，预训练参数对修改（例如微调更新或噪声扰动）的敏感性不断增强。
② 当这种所谓“渐进敏感性”（progressive sensitivity）的幅度超过了预训练获得改进的收益时，下游任务的性能便会反转性下降，从而形成了一个“拐点”：扩展预训练数据超出该拐点后，微调后模型表现会急剧恶化。

———————————————————————

🔍 实验的探照灯：从现实到受控的细致观察

🚦 实验观察：现实世界的“灾难性过训练”

在实际环境中，研究者们对多种模型（例如 OLMo-1B、OLMo-2-7B 以及 LLM360-Amber-7B）进行了详细的实验。通过在 Anthropic-HH、TULU 等指令数据集上进行微调，以及在 LLaVA 框架下进行多模态微调，他们发现：

指令微调中的悖论
在 Anthropic-HH 数据集上，对 OLMo-1B 模型进行指令微调后，预训练 token 预算超过 2.5T 时，无论是在 ID 任务（例如 AlpacaEval 上的响应率）还是在 OOD 基准（ARC-Easy、ARC-Challenge、PIQA、HellaSwag 等）上，模型的表现均出现明显下降。实际上，基于 3T token 的模型表现不仅比 2.3T 模型低，甚至其最终性能下降至与仅用 1.5T token 预训练的模型相当。
多模态微调中的例外
在多模态设置中，扩展预训练仍然带来了 VLM 分数上较为连续的提升，但在某些 OOD 任务中（例如 PIQA），扩展预训练同样导致了明显的性能遗忘和下降——这意味着模型在学习视觉信息时，其下游通用能力并未同步受益。

这些实验数据表明，虽然在预训练阶段引入更多数据可以让基础模型不断进步，但其带来的“隐性成本”便是对后续微调过程中参数更新的过度敏感性，从而使得模型最终效果受到损害。