Prompt超过finetune了?Emm...

卷友们好,我是rumor。

上周五我们组内刚分享完了Prompt的进展,同事大佬就刷到了Arxiv的更新,清华推出P-tuning v2,让Prompt可以在小模型、复杂的序列标注任务上追平finetune范式

题目:P-Tuning v2: Prompt Tuning Can Be Comparable to Finetuning Universally Across Scales and Tasks
bcebde1d7e73669e4091de7cef49884b.png

想着先好好过周末这周再看吧,结果今早我的实习同学又发来了一篇谷歌的SPoT,同样在小模型上大于等于finetune

题目:SPoT: Better Frozen Model Adaptation through Soft Prompt Transfer
4dd45fb37e52bee39c99036a5414ed10.png

这出论文的速度也太快了,被逼之下我利用午休时间快速过了一下这两篇paper。看下来emm,虽然效果是有的,但真正比起精调范式还有一些差距。

Prompt tuning经典对比

在讲清P-tuning v2之前,相信很多同学(包括我)都已经忘了前几个prompt tuning的方式。

af3c72c6706521e5ee59fdc424147081.png

所以我做了个表一起复习一下:

d01272e6349b89789c2825f6ad60096a.png

P.S. 带问号是我没那么确定,在文中没找到的

P-tuning v2

梳理好前几个Prompt tuning工作后,P-tuning v2的差别就比较好对比了:

203c913912001875f99aadb36f489677.png

它参考了prefix-tuning的多层prompt思想,让模型有更多的可调节参数,将其应用于分类任务,并去除了reparamerization。同时也去除了verbalizer,这样就可以用于非文字label的序列标注任务。

还有个优化点就是进行Multi-task训练(用多个同任务数据集),一方面更好的训练随机初始化的prompt,另一方面可以学习更多的任务知识。

实验显示,在large模型下 (Multi-task) P-tuning v2可以大于等于finetuning,尤其是一些任务上还有1个点以上的提升

1118c4f49fb091d58f82c46b29e74fca.png 2be19caf58227167a24bd3ca0c71891b.png 93afb64a3db9a7742941f81f619c1769.png 0a2240a00b3f02f7a1c800960ed52796.png

**但可以看到,在部分任务上还是要借助multi-task,而finetune的设置是没有用multi-task进行对比的,这里可能没那么fair?**悄咪咪艾特一下作者~

SPoT

SPoT的方法更加简单一些,它主要借鉴迁移的思想,利用1个或多个相关任务对prompt进行训练,之后初始化target任务的prompt参数(图左)。或者再加些工程量,可以把各种任务训练完的prompt组成一个库,来了新任务之后检索到相近的prompt用来初始化就行(图右)。

76db04b9ef039268c3f06eb9ffa722aa.png

结果显示Prompt迁移也可以带来很大提升:

6cf80a8735c08168fa6bb795ff27eb69.png

作者也尝试了Multi-task,将55个NLP任务+C4的数据混合起来训练,结果显著高于Prompt-tuning和单任务的multi-task:

e1fa34188c4347d106be6ac777d6f518.png

但从文章开头的效果图来看,SPoT在小模型上距离Multi-task的finetune还是有一定差距,大模型可以微微超过

不得不说我真的佩服这位作者的体力,展示一下他附录贴的任务prompt相关性热力图:

7fa2dff215ee583741b2e5d947400ebc.png

总结

这两篇文章看下来,我逐渐有种熟悉的感觉,一些提效果的经典方法都有看到:加复杂度、加数据、训练更久

就个人来说,Prompt范式是个高效利用大模型的方法,而在小模型上是否能落地我还是存疑的。毕竟模型容量就那么大、精调起来很方便,没必要去费力做prompt。

不过做research就是个各种尝试的过程,说不定哪天我们就有了预训练好的Prompt,即插即用,朝着调参自由更进一步。


欢迎对NLP感兴趣的朋友加入我们的「NLP卷王养成」群,一起学习讨论~

扫码添加微信备注「NLP」即可⬇️

884814c7c50399b3b4598df93e7a1bb0.png

8196e2c2e9a91219b9c8f8d616318d07.png


大家好我是rumor

一个热爱技术,有一点点幽默的妹子

欢迎关注我

带你学习带你肝

一起在人工智能时代旋转跳跃眨巴眼

「调参自由算我一个」f6728ee466be1473483d4172177d61e5.png

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值