前言
个人笔记,没有深入的思考,可能没有参考可能。
论文信息
A Survey on Model Compression and Acceleration for Pretrained Language Models
发表单位:University of California, San Diego
作者:Canwen Xu, Julian McAuley
发表会议: AAAI 2023
论文地址:http://arxiv.org/abs/2202.07105
发布时间:2022.2.25(v1) 2022.11.29(v2)
ABS
-
高能源成本和较长的推理延迟阻碍了基于transformer的预训练语言模型 (PLM) 得到更广泛的引用,包括边缘计算和移动计算。
-
高效的NLP研究旨在综合考虑NLP整个周期包括数据准备、模型训练和推理的计算量,时间和碳排放。本文重点关注推理阶段,并回顾了预训练语言模型的模型压缩和加速的当前进展状况,包括基准、指标和方法。
INTRO
(技术方面)PLMs的高计算量消耗引起了关注,为了解决这个问题,高效推理是使 ML 模型的推理更快(时间效率)、消耗更少的计算资源(计算效率)、更少的内存&#x