Prefix-Tuning: Optimizing Continuous Prompts for Generation

参考
Prefix-Tuning: Optimizing Continuous Prompts for Generation 作者小姐姐的讲解

In-context Learning

在这里插入图片描述
优点

  • 只需为不同任务写下不同的提示,不需要进行任何特定于任务的训练

缺点

  • 但不能利用非常大的数据集,如GPT-3有一个有界的上下文窗口,只能处理有限数量的token,所以当我们有一个比上下文窗口长的训练集时,上下文学习不能充分利用该训练集

  • 我们必须手动提出提示,这些手动编写的提示可能不是最佳的

  • GPT-3不能很好的推广到较小的模型

Prefix-tuning

在这里插入图片描述

  • 冻结预训练语言模型,只优化前缀,对每个任务只存储这个非常小的前缀。随任务数量增加,开销非常小

  • 前缀可训练。不必手动指定

  • 上下文学习是一个独特的框架,仅适用于大模型。前缀学习可将prompt推广到较小模型

Related Work

在这里插入图片描述

  • Tuning the top k layers
    调整top k层是大型微调模型常见做法。通常k等于1或2。调整参数量为20%是因为还要调整包含很多参数的语言模型头

  • Adapter-tuning (也称轻量化微调)
    为下游任务调整语言模型的另一种参数有效方法,冻结预训练参数,并在LM的每一层之间添加了一些可训练的mlp层

Prefix-tuning-intuition

在这里插入图片描述
优化为离散指令
在这里插入图片描述优化为连续词嵌入
在这里插入图片描述
优化所有层的前缀激活
在这里插入图片描述

Fine-tuning

在这里插入图片描述
连接x和y以获得z,通过Autoregresive LM,在每个时间步计算激活向量 h i h_i hi,因此 h i h_i hi通过做上下文的激活和时间布 i i i的输入来计算
目标为每次生成 y y y中的每个标记的对数概率之和

在这里插入图片描述
任务:
table-to-text任务:输入 X X X 表示一个线性的表格,输出 Y Y Y 表示一个短文本;

  • 自回归模型:在某一时刻 i i i,Transformer的每一层的隐状态向量拼接起来之后用于预测下一个词;

  • 整体采用encoder-to-decoder架构;

可以将token优化为连续词嵌入,而不是优化离散标记,其效果将向上传播到所有 Transformer 激活层,然后向右传播到后续标记。 这比需要匹配真实单词嵌入的离散提示更具表现力。 同时,这不如干预所有激活层的表现力,这避免了长期依赖并包括更多可调参数。 因此,Prefix-Tuning优化了前缀部分对应的所有层参数。

  • 添加一个prefix,自回归模型表示为 z = [ p r e f i x ; x ; y ] z=[prefix;x;y] z=[prefix;x;y],encoder decoder模型表示为 z = [ p r e f i x ; x ; p r e f i x ′ ; y ] ; z=[prefix;x;prefix′ ;y]; z=[prefix;x;prefix;y]

  • 输入部分 p r e f i x , x , y prefix, x, y prefix,x,y的position id分别记作 P i d x , X i d x 和 Y i d x P_{idx},X_{idx}和Y_{idx} PidxXidxYidx

  • prefix-tuning初始化一个可训练的矩阵,记作 P θ ∈ R ∣ P i d x ∣ × d i m ( h i ) P_\theta\in\mathbb{R}^{|P_{idx}|\times dim(h_i)} PθRPidx×dim(hi)
    它的维度是前缀×激活向量的维度

  • h i h_i hi用于存储prefix parameters:

    • 处于前缀部分token,参数选择设计的训练矩阵

    • 而其他部分的token,参数则固定且为预训练语言模型的参数。

Result(table-to-text)

在这里插入图片描述
table-to-text
prefix的性能比adapt和fine-tuneing更好
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

Application:Personalization

在这里插入图片描述

在这里插入图片描述

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值