DL-Paper精读:Tiny-BERT

TinyBERT通过知识蒸馏方法压缩BERT,解决了预训练模型在移动端部署的困难。文章提出Transformer Distillation策略,包括统一的层映射和多部分损失函数,并采用两阶段学习框架进行模型蒸馏。实验表明,TinyBERT在GLUE数据集上的表现优于同等大小的直接训练模型,并且在速度和参数量上有显著优势。
摘要由CSDN通过智能技术生成

TinyBERT: Distilling BERT for Natural Language Understanding

https://arxiv.org/pdf/1909.10351.pdf​arxiv.org

Backgroud and Issue

在NLP领域,预训练模型(BERT, XLNet, GPT-3)等已经取得了极大的成功。但是因为预训练模型极大的参数量和推理时间,因此对移动端部署带来了很大的困难。急需一种有效的方式,能够在保持预训练模型精度的同时,尽量地压缩其计算消耗和模型大小。

Method

本文采用知识蒸馏的方法来实现BERT的压缩。首先针对Transformer结构,提出了一种专门的蒸馏方法,并设计了模型专有的损失含糊;然后提出了一种两阶段的整流体系,分别在预训练阶段和下游任务训练阶段进行模型的蒸馏,此外,提出了一种数据增强的方式,来提升下游任务蒸馏的效果。

Transformer Distillation

文中所提出的Transformer Distillation是专门针对于Transformer网络提出的蒸馏方法。其主要解决两个问题:a、Transformer layer的匹配;b、损失函数的设计。

A、 Transformer layer的匹配。TinyBERT希望设计出的网络结构层数少于原BERT,但这为layer级别的蒸馏带来了问题:层数不匹配。例如BERT_base是12层,而所设计的TinyBERT则只有4层,本文提出从BERT的12层中挑选出4层来

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值