NeurIPS 2020 | MiniLM:通用预训练模型压缩方法
摘要这里尝试通过一问一答的方式来简介MiniLM。Q: 这篇文章要解决什么问题?A:预训练模型的低效问题。预训练模型过大的话,有2个弊端:(1)推理速度慢(2)内存空间占用大。Q: 文章如何解决上述问题?A: 提出了一种通用的面向Transformer-based预训练模型压缩方法:MiniLM。MiniLM有3个核心点:(1)蒸馏teacher模型最后一层Transformer的自注意力模块(2)在自注意模块中引入值之间的点积(3)引入助教模型辅助模型蒸馏Q:文章方案最终效果如何?A:
原创
2020-11-17 22:41:43 ·
1953 阅读 ·
0 评论