论文笔记--DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter
1. 文章简介
- 标题:DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter
- 作者:Victor SANH, Lysandre DEBUT, Julien CHAUMOND, Thomas WOLF
- 日期:2019
- 期刊:arxiv preprint
2. 文章概括
文章给出了对BERT[1]模型进行知识蒸馏的方法,并训练得到了DistilBERT,参数量仅为BERT的40%,且在多个自然语言理解、分类任务上表现接近BERT。
3 文章重点技术
3.1 知识蒸馏
知识蒸馏是一种常用的压缩模型的方法,可以用更轻量级的模型达成几乎和原模型相同的效果。
随着NLP模型的发展(见上图),模型量级越来越大,实际使用时可能会收到时间、存储、硬件等限制。为此文章提出了用知识蒸馏来对BERT模型进行压缩。知识蒸馏中我们将原始的大模型称为教师模型Teacher model,我们要生成的小模型称为学生模型Student model。知识蒸馏分为两个步骤
- 监督学习:学生模型根据标注数据进行监督学习,在文本中此过程的损失函数即为BERT的
MLM(Masked Language Modeling)损失函数 L M L M L_{MLM} LMLM。 - Teacher模型学习:学生模型学习教师模型的行为,这里采用损失函数 L c e = ∑ i t i log ( s i ) L_{ce} = \sum_i t_i \log (s_i) Lce=∑it