【论文阅读】COST-EFF: Collaborative Optimization of Spatial and Temporal Efficiency with Slenderized Multi

2022-2023年论文系列之模型轻量化和推理加速

前言

通过Connected Papers搜索引用PaBEE/DeeBERT/FastBERT的最新工作,涵盖:

  • 模型推理加速
  • 边缘设备应用
  • 生成模型
  • BERT模型
  • 知识蒸馏

论文目录

  1. SmartBERT: A Promotion of Dynamic Early Exiting Mechanism for Accelerating BERT Inference

  2. SKDBERT: Compressing BERT via Stochastic Knowledge Distillation

  3. COST-EFF: Collaborative Optimization of Spatial and Temporal Efficiency with Slenderized Multi-exit Language Models

  4. Knowledge Distillation with Reptile Meta-Learning for Pretrained Language Model Compression

  5. Accelerating Inference for Pretrained Language Models by Unified Multi-Perspective Early Exiting

  6. A Simple Hash-Based Early Exiting Approach For Language Understanding and Generation

主要内容:近两年(2022-2023年)动态早退的工作进展,粗读motivation和method以及experiment setup。

3. COST-EFF: Collaborative Optimization of Spatial and Temporal Efficiency with Slenderized Multi-exit Language Models

a. 论文信息

发表会议:EMNLP 2022 main conference

作者:Bowen Shen, Zheng Lin, Yuanxin Liu, Zhengxiao Liu, Lei Wang, Weiping Wang

发表单位:

  • Institute of Information Engineering, Chinese Academy of Sciences(信工所)

  • School of Cyber Security, University of Chinese Academy of Sciences(中国科学院大学网络空间安全学院)

  • MOE Key Laboratory of Computational Linguistics, Peking University(北京大学计算语言学教育部重点实验室)

开源:https://github.com/sbwww/cost-eff

b. 内容

motivation

1)现有的静态压缩的模型没有意识到输入实例之间的不同复杂性,可能会导致简单和复杂输入的冗余和不足

2)具有早期退出的小型的模型面临预测和更深层的计算之间权衡的挑战

method

在这里插入图片描述

1)本文提出了一种集成静态模型压缩和动态推理加速的PLM协作优化方法,保留模型深度,缩小宽度生成细长模型,加速层级早退的速度。(早退+剪枝)

2)提出了一种联合训练方法,保留每个出口结构的贡献,而不仅仅是最后一层。(引入TA教师助理模型,蒸馏中间层和预测层)

pipelines

1)多出口模型获取:微调原BERT生成多出口的BERT模型作为TA模型和待剪枝的模型的主干;

2)剪枝:将上一步得到的待剪枝模型剪枝处理,得到细长模型;

3)特定任务的知识蒸馏:恢复隐藏层的表示和每层的预测结果,将TA模型作为教师模型,细长模型作为学生模型进行蒸馏。

experiment setup

数据集:

在这里插入图片描述

Baselines:

  • 不同size的BERT模型:BERTBase,BERT6L-768H, BERT8L-256H
  • 代表性静态压缩方法:DistilBERT,TinyBERT
  • 动态加速方法:DeeBERT,PABEE,ElasticBERT

按照参数量分类:第一组为<20M参数量,第二组为>50M参数量

在这里插入图片描述

**实验环境:**单块 24GB RTX 3090 GPU

result

在GLUE基准上进行了实验,结果验证了该方法验证了Pareto最优性,获得高压缩率和高加速比,仅保留BERT模型的1/8参数和1/19 FLOPs。

在这里插入图片描述

simple input instances的实验对应motivation 1),验证静态压缩方法对于简单样本的考虑缺失。

  • 消融实验:蒸馏的有效性

    引入pred蒸馏对于改善多出口模型的浅层和深层的不一致有效。

在这里插入图片描述

  • 消融实验:联合训练

    1)两阶段训练对于深层有优势

    2)与无exit的在浅层相比,COST-EFF性能差距不大,表明了蒸馏的有效性

在这里插入图片描述

c. Summary

本文的创新点来源于静态模型压缩(宽度剪枝)+动态模型压缩(EE)的方案,显然对于简单样本较多的数据集会有显著提升;在训练的时候,本文提出引入知识蒸馏用于提高多出口模型的性能。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

zoetu

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值