©PaperWeekly 原创 · 作者|蔡杰
学校|北京大学硕士生
研究方向|问答系统
我们都知道预训练模型的标准范式:
pretrain-利用大量的未标记数据通过一些自监督的学习方式学习丰富的语义和句法知识。例如:Bert 的 MLM,NSP 等等。
finetune-将预训练过程中所学到的知识应用到子任务中,以达到优异的效果。
预训练模型在各个领域虽然带来了巨大的提升,但是也有一些致命的问题:
预训练模型高计算复杂度-不可能在实时系统中运行。
大存储需求——预训练模型一般都很大,少则几百 M,大则几 G,无法在有限资源的设备上部署。
所以模型压缩和加速技术的研究迫在眉睫!
Logit Distillation
知识蒸馏最早是 Hinton 在 15 年提出的一个黑科技技术,核心思想是通过迁移知识,从而通过训练好的大模型得到更加适合推理的小模型。
论文标题:Distilling the Knowledge in a Neural Network
论文来源:NIPS 2014
论文链接:http://arxiv.org/abs/1503.02531
神经网络通常使用 “softmax” 输出层生成每个类别的概率:
输出层通过将 与其他 logit 进行比较,以