论文标题:Q-BERT: Hessian Based Ultra Low Precision Quantization of BERT---Q-BERT:基于Hessian的超低精度BERT量化
Abstract
基于Transformer的架构已经成为一系列自然语言处理任务的实际模型。特别是,基于BERT的模型在GLUE任务、CoNLL-03和SQuAD中获得了显著的精度增益。然而,基于BERT的模型有一个令人望而却步的内存占用和延迟。因此,在资源受限的环境中部署基于BERT的模型已经成为一项具有挑战性的任务。在这项工作中,我们使用二阶Hessian信息对微调BERT模型进行了广泛的分析,并利用我们的结果提出了一种将BERT模型量化到超低精度的新方法。特别地,我们提出了一种新的组级量化方案,并使用基于hessian的混合精度方法进一步压缩模型。我们在SST-2、MNLI、CoNLL-03和SQuAD的BERT下游任务上广泛测试了我们提出的方法。我们可以达到与基线相当的性能,但性能下降最多2.3%,即使是超低精度量化到2比特,对应的模型参数压缩高达13倍,嵌入表压缩高达4倍,以及激活。在所有任务中,我们观察到在SQuAD上调优BERT的性能损失最大。通过探讨基于Hessian的分析和可视化,我们表明这与BERT当前的训练/微调策略对SQuAD不收敛这一事实有关。