1. 研究背景及动机 基于语言模型的预训练Transformer在许多NLP任务上有明显提升,但是当前Transformer模型追求大模型及高精度,需要大量的计算、内存资源。因此,需要压缩模型以节约成本再部署在生产环境。 本文的工作展示如何在BERT微调阶段引入量化训练,将BERT压缩4倍且精度损失最小。 2. 解决思路(模型或算法) 2.1 Symmetric linear quantization (对称线性量化) 量化公式: 其中: S x S^x S