ACL 2020 | MobileBERT:一种与任务无关的模型压缩方法

MobileBERT是ACL 2020上提出的一种轻量级预训练模型,采用任务无关的压缩方法。通过引入瓶颈机制、Attention Transfer和Pre-training Distillation策略,实现了比BERT-base小4.3倍、快5.5倍的模型,同时保持在GLUE基准上的良好性能。
摘要由CSDN通过智能技术生成

©PaperWeekly 原创 · 作者|蔡杰

学校|北京大学硕士生

研究方向|问答系统

论文标题:MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices

论文来源:ACL 2020

论文链接:https://arxiv.org/abs/2004.02984

引言

目前很多预训练模型的压缩方法都是和下游任务相关的,一般做法都是把 pre-train 的模型在下游任务上 fine-tune 之后,进行缩小操作(蒸馏,裁剪等等)。据作者说目前还没有与任务无关的轻量级预训练模型,他们要填补这个领域的空白。实验结果上看,这个空白填补的还是很成功的。

Insights

要做一个预训练的小模型,用蒸馏?蒸馏完的模型要么浅,要么窄,但是这两种模型都有自己的缺点,浅的表示能力不足,窄的不好训练(毕竟还是要考虑后续 fine-tune 的)。

MobileBERT 采用的和 BERT-large 一样深的层数,在每一层中的 transformer 中加入了 bottleneck 机制使得每一层 transformer 变得更窄,但是并没有丢失其与 self-attention 和 Feed-Forward 之间的平衡。

作者先训练了一个带有 bottleneck 机制的 BERT-large(IB

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值