prefix tuning
[2101.00190] Prefix-Tuning: Optimizing Continuous Prompts for Generation (arxiv.org)
之前的工作:prompt tunning,人工设计模板(离散模板),鲁棒性差
这种方法是对大型预训练语言模型(LMs)进行微调的一种替代方案,它在保持语言模型参数不变的情况下,只优化一个小型的连续任务特定向量(称为前缀)。前缀调优的灵感来源于提示(prompting),允许后续的token将这个前缀视为“虚拟token”。作者将前缀调优应用于GPT-2的表格到文本生成任务和BART的摘要生成任务。
定义
在模型输入前添加一个连续的且任务特定的向量序列(prefix),将token构造成一段任务相关的virtual tokens,固定PLM参数只优化特定任务prefix(离散→连续)
prefix是模块化的,LM不变但是可以支持多个不同的任务
问题陈述
一个生成任务,输入context x,输出y是一个token序列,主要关注两个任务:
table-to-text:x对应于线性化数据表,y是文本描述
总结任务:x是文章,y是简短摘要
实验设置
使用了三个标准的神经生成数据集来评估表格到文本任务,以及XSUM数据集来评估摘要生成任务。
主要结果
前缀调优在表格到文本生成任务中表现出色,即使只学习了0.1%的参数,也能达到与全参数微调相当的表现。在低数据设置下,前缀调优平均优于微调。此外,前缀调优在处理未见过的主题的泛化能力上也表现更好。
内在评估
研究了前缀长度、仅调整嵌入层、前缀与内缀的比较以及不同的前缀初始化策略对性能的影响。
讨论
讨论了前缀调优的一些优点,如个性化和跨用户批处理的能力,以及前缀调优的归纳偏差。
结论
前缀调优是一种有效的轻量级微调替代方案,它在全数据设置下能够保持与微调相当的表现,在低数据和泛化设置下胜过微调。