加速 BERT 模型有多少种方法?从架构优化、模型压缩到模型蒸馏,最新进展详解! - AI研习社的文章 - 知乎
方法:
-
架构改进:将原有的架构改进为更快的架构,例如,将 RNN 替换为 Transformer或CNN;使用需要较少计算的层等。当然也可以采用其他优化,例如从学习率和策略、预热步数,较大的批处理大小等;
-
模型压缩:通常使用量化和修剪来完成,从而能够在架构不变(或者大部分架构不变)的情况下减少计算总量;
-
模型蒸馏:训练一个较小的模型,该模型能够复制原始模型的行为。