NAACL 2022 | TAMT:通过下游任务无关掩码训练搜索可迁移的BERT子网络

e9b880f207315c07fd2b49847c0fc67c.gif

©PaperWeekly 原创 · 作者 | 刘源鑫

单位 | 中科院信工所

研究方向 | 模型压缩

eb271af095d06b7aa05e16a15d800945.png

论文标题:

Learning to Win Lottery Tickets in BERT Transfer via Task-agnostic Mask Training

收录会议:

NAACL 2022

论文链接:

https://arxiv.org/abs/2204.11218

代码链接:

https://github.com/llyx97/TAMT

416db8726db0b1e72cea74e7c3a698bd.png

动机

以 BERT 的问世为标志,“预训练+ 下游任务微调”成为了 NLP 任务的一个主流范式。研究趋势显示,持续增长的参数量是预训练语言模型(PLM) 获得成功的一个关键因素。然而,这也增大了 PLM 在下游任务微调和部署的开销。

与此同时,近期关于彩票假设(Lottery Ticket Hypothesis, LTH [1])的研究 [2]发现,基于权重的剪枝(magnitude-based pruning)可以在预训练的 BERT 模型中发现一些 winning ticket 子网络,它们可以迁移到多个下游任务微调,并取得和完整 BERT 相当的效果。

通过初步的实验分析,我们发现这些 winning ticket 子网络良好的下游任务迁移效果,和它们在预训练任务上的效果存在相关性。如图 1 所示,在 50% sparsity 下,oneshot magnitude pruning (OMP)[1] 得到的子网络在预训练 mask language modeling(MLM)任务和下游任务上都明显超过随机子网络。然而,随着 sparsity [2] 持续上升,OMP 子网络在 MLM 任务和下游任务上的效果同时下降。这意味着如果我们能够找到在预训练任务上性能更好的 BERT 子网络,那么它们很可能也有更好的下游任务的迁移能力。

e07a1a995d3fdddc095f983c5f5d5a39.png

▲ 图1 OMP子网络和随机子网络(Rand)在下游任务(左)和预训练任务(右)的表现

849eddbddc4d8994ddf2d0849483a24a.png

下游任务无关的掩码训练TAMT

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值