EMLP2021 ｜ Google大模型微调经典论文prompt tuning

最新推荐文章于 2025-04-14 21:29:18 发布

HxShine

最新推荐文章于 2025-04-14 21:29:18 发布

阅读量1.7k

点赞数 1

分类专栏： nlp_paper llm nlp 文章标签： chatgpt 大模型微调

本文链接：https://blog.csdn.net/qq_16949707/article/details/130907760

版权

nlp 同时被 3 个专栏收录

97 篇文章

订阅专栏

nlp_paper

75 篇文章

订阅专栏

llm

23 篇文章

订阅专栏

PromptTuning是一种通过学习prompt参数而非人工设计的方法，用于适应大模型到下游任务，它只更新输入嵌入层，保留模型原权重。相较于全参数微调，PromptTuning在零样本和少量样本情况下表现更优，且在模型尺寸增加时，与全量微调的效果差距减小。实验显示，prompt长度超过20即可取得良好效果，而随机初始化效果不佳，预训练方法和训练步数对结果有显著影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、概述

title：The Power of Scale for Parameter-Efficient Prompt Tuning

论文地址：https://arxiv.org/abs/2104.08691

代码：GitHub - google-research/prompt-tuning: Original Implementation of Prompt Tuning from Lester, et al, 2021

1.1 Motivation

大模型对每个任务训练一个模型，开销和部署成本都比较高（一个大模型的权重可能要40G，多个任务成本比较高）。
discrete prompts（离散prompts）是指人工设计prompts提示语加入到模型中，这样成本比较高，并且效果好像不太行。

1.2 Methods

方案概述：通过反向传播更新参数来学习prompts，而不是人工设置prompts，同时冻结模型原始权重，只训练prompts参数，训练完以后，用同一个模型可以做多任务推理，而不用像原始model tuning方法一样，对每个任务都训练一个模型了。

与prefix-tuning的不同：prefix-tuning是更新transformer所有中间层，prompt-tuning只在输入的embedding端添加，所以叫prompt tuning。

1.3 Conclusion

可以作为一个有竞争力的方案将大模型适配到下游任务中，在SuperGLUE上也取得不错的结果（T5），比GPT-3的few-shot效果好不少。

随着模型尺寸增加，prompt tuning和model tuning（全参数微调）gap消失。

prompt tuning（全量微调）比model tuning在zero-shot上的效果好很多。说明其有比较强的跨领域的迁移学习，能提升generalization，同时表明冻结大模型的参数，将更新限制在少量轻量级的参数上可能还有防止过拟合的效果。

1.3 Interpretability

prompt design：

- 很好解释

prompt tuning：

- 不好解释，所以利用学到的embeding，利用cosin相似度找到最相近的一些词，来看最终学到了什么prompt，发现还是和理想的prompt词差别不是特别大
- 用label的embedding进行初始化，发现tuning后embedding基本不变，而随机初始化或者sample初始化，也发现是在label附近继续找，说明模型可能就是想让label作为prompt。
- prompt设置比较长后（100），发现有些token会找到相同的邻居，说明太长了可能会超过prompt此处的容量。