Prefix Tuning、P-Tuning V1/V2基本原理总结

文章探讨了斯坦福大学提出的PrefixTuning和其后续版本P-Tuning,这两种方法改进了人工模板,将prompt转换为连续学习的虚拟token。P-TuningV1和V2着重于优化位置、添加深层结构输入、去除重参数化等,以提升在不同规模模型和任务上的性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Prefix Tuning

Prefix Tuning是斯坦福在2021年提出的一种微调方法,主要的创新点在于对之前传统的人工构造prompt模板方式进行了改进。因为之前的人工构建的template是离散的,且针对不同的下游任务,需要构建不同的模版。而没有通用的标准去评价模板效果的优劣。所以Prefix Tuning旨在创建一种连续的可学习的模板,将prompt转换为virtual tokens embedding,并将其添加至输入中,作为输入的前缀。

对于transformer的每一层 (不只是输入层,且每一层transformer的输入不是从上一层输出,而是随机初始化的embedding作为输入),都在真实的句子表征前面插入若干个连续的可训练的"virtual token" embedding,这些伪token不必是词表中真实的词,而只是若干个可调的自由参数。

同时,为了防止直接更新Prefix的参数导致训练不稳定的情况,特在Prefix层前面加了MLP结构(相当于将Prefix分解为更小维度的Input与MLP的组合后输出的结果),训练完成后,只保留Prefix的参数。

P-Tuning V1

P-Tuning(GPT Understands, Too),该方法将离散的Prompt转换为可以学习的Embedding层,并用MLP+LSTM的方式来对Prompt Embedding进行一层处理,成功地实现了模版的自动构建。

相比Prefix Tuning,P-Tuning加入的可微的virtual token仅限于输入层,没有在每一层都加;另外,virtu

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值