Ladder Side-Tuning:预训练模型的“过墙梯”

Ladder Side-Tuning(LST)是一种新的训练技巧,旨在实现参数和训练效率的双重提升。不同于Adapter和P-tuning,LST通过构建一个仅在旁支模型中训练新参数的架构,减少了大模型的反向传播复杂度,从而提高训练速度。在NLP和CV任务的实验中,LST展示了其在有限训练资源下微调大型预训练模型的潜力。
摘要由CSDN通过智能技术生成

e3b7266aa2b663993c57be081908f15b.gif

©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 追一科技

研究方向 | NLP、神经网络

如果说大型的预训练模型是自然语言处理的“张良计”,那么对应的“过墙梯”是什么呢?笔者认为是高效地微调这些大模型到特定任务上的各种技巧。除了直接微调全部参数外,还有像 Adapter [1]、P-Tuning 等很多参数高效的微调技巧,它们能够通过只微调很少的参数来达到接近全量参数微调的效果。然而,这些技巧通常只是“参数高效”而并非“训练高效”,因为它们依旧需要在整个模型中反向传播来获得少部分可训练参数的梯度,说白了,就是可训练的参数确实是少了很多,但是训练速度并没有明显提升。

最近的一篇论文《LST: Ladder Side-Tuning for Parameter and Memory Efficient Transfer Learning》[2] 则提出了一个新的名为“Ladder Side-Tuning(LST)”的训练技巧,它号称同时达到了参数高效和训练高效。是否真有这么理想的“过墙梯”?本来就让我们一起来学习一下。

d8fd95543ecc9b374c12823d33775503.png

方法大意

其实 LST 这把“过墙梯”的结构,用原论文的 Figure 2 就可以清晰地说清楚了:

6cf721f4de94b486bb43e027a87948aa.png

▲ LST与Adaper、P-tuning的对比图

反向传播,也就是求模型梯度,是从输出层向输入层

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值