NAACL 2022 | TAMT：通过下游任务无关掩码训练搜索可迁移的BERT子网络

最新推荐文章于 2024-05-18 14:27:04 发布

PaperWeekly

最新推荐文章于 2024-05-18 14:27:04 发布

阅读量367

点赞数

文章标签： python 神经网络机器学习人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/125476420

版权

©PaperWeekly 原创 · 作者 | 刘源鑫

单位 | 中科院信工所

研究方向 | 模型压缩

论文标题：

Learning to Win Lottery Tickets in BERT Transfer via Task-agnostic Mask Training

收录会议：

NAACL 2022

论文链接：

https://arxiv.org/abs/2204.11218

代码链接：

https://github.com/llyx97/TAMT

动机

以 BERT 的问世为标志，“预训练+ 下游任务微调”成为了 NLP 任务的一个主流范式。研究趋势显示，持续增长的参数量是预训练语言模型（PLM）获得成功的一个关键因素。然而，这也增大了 PLM 在下游任务微调和部署的开销。

与此同时，近期关于彩票假设（Lottery Ticket Hypothesis, LTH [1]）的研究 [2]发现，基于权重的剪枝（magnitude-based pruning）可以在预训练的 BERT 模型中发现一些 winning ticket 子网络，它们可以迁移到多个下游任务微调，并取得和完整 BERT 相当的效果。

通过初步的实验分析，我们发现这些 winning ticket 子网络良好的下游任务迁移效果，和它们在预训练任务上的效果存在相关性。如图 1 所示，在 50% sparsity 下，oneshot magnitude pruning （OMP）[1] 得到的子网络在预训练 mask language modeling（MLM）任务和下游任务上都明显超过随机子网络。然而，随着 sparsity [2] 持续上升，OMP 子网络在 MLM 任务和下游任务上的效果同时下降。这意味着如果我们能够找到在预训练任务上性能更好的 BERT 子网络，那么它们很可能也有更好的下游任务的迁移能力。

▲ 图1 OMP子网络和随机子网络（Rand）在下游任务（左）和预训练任务（右）的表现

下游任务无关的掩码训练TAMT

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
NAACL 2022 | TAMT：通过下游任务无关掩码训练搜索可迁移的BERT子网络

©PaperWeekly 原创 ·作者 |刘源鑫单位 |中科院信工所研究方向 |模型压缩论文标题：Learning to Win Lottery Tickets in BERT Transfer via Task-agnostic Mask Training收录会议：NAACL 2022论文链接：https://arxiv.org/abs/2204.11218代码...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。