【论文阅读】COST-EFF: Collaborative Optimization of Spatial and Temporal Efficiency with Slenderized Multi

zoetu

已于 2023-07-18 17:21:03 修改

阅读量133

点赞数

分类专栏：深度学习模型推理加速论文阅读文章标签：论文阅读

于 2023-07-18 17:01:41 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43800119/article/details/131791539

版权

论文阅读同时被 2 个专栏收录

29 篇文章 3 订阅

订阅专栏

深度学习模型推理加速

9 篇文章 1 订阅

订阅专栏

COST-EFF是2022年EMNLP会议上提出的一种方法，它结合静态宽度剪枝和动态早期退出策略，优化预训练语言模型的效率。通过创建细长的多出口模型并使用联合训练，该方法在保留模型性能的同时提高了推理速度。实验表明，COST-EFF实现了高压缩率和高加速比，尤其对简单输入实例效果显著。

摘要由CSDN通过智能技术生成

2022-2023年论文系列之模型轻量化和推理加速

前言

通过Connected Papers搜索引用PaBEE/DeeBERT/FastBERT的最新工作，涵盖：

模型推理加速
边缘设备应用
生成模型
BERT模型
知识蒸馏

论文目录

主要内容：近两年(2022-2023年)动态早退的工作进展，粗读motivation和method以及experiment setup。

3. COST-EFF: Collaborative Optimization of Spatial and Temporal Efficiency with Slenderized Multi-exit Language Models

a. 论文信息

发表会议：EMNLP 2022 main conference

作者：Bowen Shen, Zheng Lin, Yuanxin Liu, Zhengxiao Liu, Lei Wang, Weiping Wang

发表单位：

Institute of Information Engineering, Chinese Academy of Sciences（信工所）
School of Cyber Security, University of Chinese Academy of Sciences（中国科学院大学网络空间安全学院）
MOE Key Laboratory of Computational Linguistics, Peking University（北京大学计算语言学教育部重点实验室）

开源：https://github.com/sbwww/cost-eff

b. 内容

motivation

1）现有的静态压缩的模型没有意识到输入实例之间的不同复杂性，可能会导致简单和复杂输入的冗余和不足

2）具有早期退出的小型的模型面临预测和更深层的计算之间权衡的挑战

method

在这里插入图片描述

1）本文提出了一种集成静态模型压缩和动态推理加速的PLM协作优化方法，保留模型深度，缩小宽度生成细长模型，加速层级早退的速度。（早退+剪枝）

2）提出了一种联合训练方法，保留每个出口结构的贡献，而不仅仅是最后一层。（引入TA教师助理模型，蒸馏中间层和预测层）

pipelines

1）多出口模型获取：微调原BERT生成多出口的BERT模型作为TA模型和待剪枝的模型的主干；

2）剪枝：将上一步得到的待剪枝模型剪枝处理，得到细长模型；

3）特定任务的知识蒸馏：恢复隐藏层的表示和每层的预测结果，将TA模型作为教师模型，细长模型作为学生模型进行蒸馏。

experiment setup

数据集：

在这里插入图片描述

Baselines：

不同size的BERT模型：BERTBase，BERT6L-768H, BERT8L-256H
代表性静态压缩方法：DistilBERT，TinyBERT
动态加速方法：DeeBERT，PABEE，ElasticBERT

按照参数量分类：第一组为<20M参数量，第二组为>50M参数量

在这里插入图片描述

**实验环境：**单块 24GB RTX 3090 GPU

result

在GLUE基准上进行了实验，结果验证了该方法验证了Pareto最优性，获得高压缩率和高加速比，仅保留BERT模型的1/8参数和1/19 FLOPs。

在这里插入图片描述

simple input instances的实验对应motivation 1），验证静态压缩方法对于简单样本的考虑缺失。

消融实验：蒸馏的有效性

引入pred蒸馏对于改善多出口模型的浅层和深层的不一致有效。

在这里插入图片描述

消融实验：联合训练

1）两阶段训练对于深层有优势

2）与无exit的在浅层相比，COST-EFF性能差距不大，表明了蒸馏的有效性

在这里插入图片描述

c. Summary

本文的创新点来源于静态模型压缩（宽度剪枝）+动态模型压缩（EE）的方案，显然对于简单样本较多的数据集会有显著提升；在训练的时候，本文提出引入知识蒸馏用于提高多出口模型的性能。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
【论文阅读】COST-EFF: Collaborative Optimization of Spatial and Temporal Efficiency with Slenderized Multi

剪枝+KD+EE
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

zoetu 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。