论文笔记--DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter

DistilBERT是通过知识蒸馏技术从BERT中提取出的一个更小、更快、成本更低的模型,其参数量仅为BERT的40%,但在GLUE基准测试中达到了BERT的97%性能。该模型在保留高效性能的同时,提高了推理速度,适合资源有限的环境。
摘要由CSDN通过智能技术生成

论文笔记--DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter

1. 文章简介

  • 标题:DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter
  • 作者:Victor SANH, Lysandre DEBUT, Julien CHAUMOND, Thomas WOLF
  • 日期:2019
  • 期刊:arxiv preprint

2. 文章概括

  文章给出了对BERT[1]模型进行知识蒸馏的方法,并训练得到了DistilBERT,参数量仅为BERT的40%,且在多个自然语言理解、分类任务上表现接近BERT。

3 文章重点技术

3.1 知识蒸馏

  知识蒸馏是一种常用的压缩模型的方法,可以用更轻量级的模型达成几乎和原模型相同的效果。
发展
  随着NLP模型的发展(见上图),模型量级越来越大,实际使用时可能会收到时间、存储、硬件等限制。为此文章提出了用知识蒸馏来对BERT模型进行压缩。知识蒸馏中我们将原始的大模型称为教师模型Teacher model,我们要生成的小模型称为学生模型Student model。知识蒸馏分为两个步骤

  • 监督学习:学生模型根据标注数据进行监督学习,在文本中此过程的损失函数即为BERT的
    MLM(Masked Language Modeling)损失函数 L M L M L_{MLM} LMLM
  • Teacher模型学习:学生模型学习教师模型的行为,这里采用损失函数 L c e = ∑ i t i log ⁡ ( s i ) L_{ce} = \sum_i t_i \log (s_i) Lce=it
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值