第十一章：大模型之Adaptation

最新推荐文章于 2024-07-28 16:45:11 发布

LucyFang2020

最新推荐文章于 2024-07-28 16:45:11 发布

阅读量392

点赞数 7

文章标签：大数据

本文链接：https://blog.csdn.net/LucyLuo2020/article/details/135784605

版权

参考链接：https://github.com/datawhalechina/so-large-lm/tree/main

1 引言

为什么需要Adaptation?

在⾃动化和⼈⼯智能的时代，语⾔模型已成为⼀个迅速发展的领域。从语⾔模型的训练⽅式来说，语⾔模型，例如GPT-3，通常是任务不可知（task-agnostic），task-agnostic这个词组⽤于描述⼀种不针对任何特定任务进⾏优化的⽅法或模型。
在机器学习和⼈⼯智能的背景下，task-agnostic通常指的是⼀种可以在多个不同任务上运⾏，⽽不需要对每个单独任务进⾏特别调整或训练的⽅法。如何将task-agnostic的模型适应特定任务的需求，以便在不同的应⽤场景中实现最佳性能。这意味着它们在⼀个⼴泛的领域内进⾏训练，⽽不是针对特定任务。这种⽅法的优点在于模型具有⼴泛的适⽤性，但也带来了⼀些挑战。⽐如下游任务的多样性，不同的下游任务与语⾔模型的预训练⽅式可以⾮常不同，这可能导致问题，因此需要适应，需要转变。

通用的adaptation配置
可以使⽤预训练语⾔模型（LM）的参数来适配（adapt）下游任务的⼀般设置。

2 当前主流的⼏种Adaptation⽅法

Probing
Probing（探针）策略是⼤规模预训练阶段就已经⼴泛使⽤的⼀种微调策略，这⼀⼩节将讨论探测（Probing）策略的引⼊及其应⽤，同时探讨固定⻓度表示的策略。
Fine-tuning
Fine-tuning（微调）使⽤语⾔模型参数作为优化的初始化。其中，优化后的参数家族包括了所有的语⾔模型参数和任务特定的预测头参数。与此同时，预训练的优化器状态被丢弃。
Lightweight Fine-tuning
轻量级微调（Lightweight Fine-Tuning）是⼀种特殊的微调技术，旨在结合全⾯微调的表现⼒和更节省资源的优点。轻量级微调试图在不需要为每个任务存储完整语⾔模型的同时，保持与全⾯微调相同的表现⼒。换句话说，它希望在减⼩模型存储需求和计算负担的同时，仍然实现出⾊的性能。