论文信息
作者:Wenhui Wang, Furu Wei, Li Dong, Hangbo Bao,Nan Yang, Ming Zhou
发表单位:微软研究院
发表会议:NeurIPS 2020
开源代码:https://github.com/microsoft/unilm/tree/master/minilm
好像没有具体的代码,只有使用教程。
论文地址:https://arxiv.org/abs/2002.10957
研究背景及目的
文章主要解决预训练模型的低效问题,如果预训练模型过大的话,有两个弊端:
- 推理速度慢
- 内存空间占用大
该文提出一种通用的面向Transformer-based预训练模型压缩方法:MiniLM,该方法有3个核心要点:
- 蒸馏teacher模型最后一层Transformer的自注意力模块
- 在注意力模块中引入值之间的点积
- 引入助教模型辅助模型蒸馏
该文章最终实验效果:在各种参数尺寸的student模型中,MiniLM的单语种模型优于各种最先进的蒸馏方案。在 SQuAD 2.0和GLUE的多个任务上以一半的参数和计算量就保持住99%的accuracy。此外,MiniLM在多语种预训练模型上也取得不错的结果。
提出的模型