MobileNERT: a Compact Task-Agnostic BERT for Resource-Limited Devices
https://arxiv.org/abs/2004.02984
Background
BERT在NLP领域的地位是举足轻重的,其预训练模型,在多种下游任务的迁移工作中都能给出非常好的效果。但于此同时,BERT也受困于其庞大的模型参数和较慢的运行速度,尤其是在于一些资源受限的移动端部署任务中,BERT的实际应用是非常受限的。
Related work and the limit
目前,针对BERT的压缩研究工作已有很多。比如distill BERT等工作,通过知识蒸馏,来获得一个高精度的小模型。但是这些工作一般都是基于具体下游任务场景的(“task-specifically”),这些工作的一般流程是首先将预训练的BERT模型在具体任务中进行fine-tune,然后再进行蒸馏来获得小模型。该过程是比较耗时且繁琐的,不如直接来fine-tune一个任务无关(“task-agnostic”)的小的预训练模型。但是如果直接预训练一个较窄或较浅的BERT,又会造成较严重的精度损失,无法达到原始BERT的精度。
Novel points
在预训练的阶段来进行知识蒸馏,获得一个压缩版的小BERT(m