©PaperWeekly 原创 · 作者 | BNDSBilly
研究方向 | 自然语言处理
Abstract
模型蒸馏是当下较为主流的模型压缩方法,通过将大规模教师模型的知识传递给小规模学生模型,从而既能降低模型大小,提升推理速度,又能得到与原模型基本相当的表现。之前分享的几篇论文大多是对蒸馏目标函数及学生模型架构的探究,但本文的作者转而对教师模型的知识传达能力进行了探究。
最终,作者提出了基于 Meta Learning 的 MetaDistil 方法,同时考虑了提升教师模型的知识传达能力和学生模型的知识获取能力。实验表明,MetaDistil 压缩的模型在多个 benchmark 上都优于传统蒸馏方法,同时对学生模型的参数敏感性更低,可以更加灵活的应用在不同的下游任务和模型上。
论文标题:
BERT Learns to Teach: Knowledge Distillation with Meta Learning
论文链接:
https://arxiv.org/abs/2106.04570
代码链接:
https://github.com/JetRunner/MetaDistil
Methods
2.1 MetaDistil
在传统模型蒸馏过程中,一般首先训练一个大模型作为教师模型,然后训练一个小的学生模型来模拟教师模型的行为,以便获取教师模型的知识。在整个过程中,教师模型是固定的。但是这一范式有两个缺点:首先,教师模型不知道学生模型的能力。有教育学研究表明,以学生为中心的学习(考虑到学生