【论文阅读】Accelerating Inference for Pretrained Language Models by Unified Multi-Perspective Early Exiti

zoetu

已于 2023-07-18 17:20:52 修改

阅读量143

点赞数

分类专栏：论文阅读深度学习模型推理加速文章标签：语言模型人工智能自然语言处理

于 2023-07-18 17:10:10 首次发布

本文链接：https://blog.csdn.net/qq_43800119/article/details/131791893

版权

论文阅读同时被 2 个专栏收录

29 篇文章 3 订阅

订阅专栏

深度学习模型推理加速

9 篇文章 1 订阅

订阅专栏

2022-2023年论文系列之模型轻量化和推理加速

前言

通过Connected Papers搜索引用PaBEE/DeeBERT/FastBERT的最新工作，涵盖：

模型推理加速
边缘设备应用
生成模型
BERT模型
知识蒸馏

论文目录

主要内容：近两年(2022-2023年)动态早退的工作进展，粗读motivation和method以及experiment setup。

5. Accelerating Inference for Pretrained Language Models by Unified Multi-Perspective Early Exiting

a. 论文信息

发表会议：COLING 2022

作者：Jun Kong, Jin Wang, Liang-Chih Yu, Xuejie Zhang

发表单位：

云南大学信息科学与工程学院
台湾元智大学信息管理系

开源：https://github.com/JunKong5/MPEE

b. 内容

motivation

**EE存在的限制是主要集中在垂直视角上，忽略了水平视角的操作。**每个transformer编码器层被视为一个基本单元，但忽略了每个层中哪些token需要参与计算。
EE方法主要关注易样本的加速推理，而对于难样本，加速推理并没有实现，仍需要执行到最后一层。同时，现有的EE方法的计算消耗与输入序列长度的平方成正比，因此平均加速推理受到限制。

Summary: EE对token级别的冗余计算没有考虑，难样本的加速推理没有实现。

method

提出了一种统一的水平和垂直多角度早期退出框架，即层级和序列token级别的早期退出方法，可以通过模型的层级和token级别来提前退出不必要的计算，从而实现更快的推理。

垂直架构使用回收 EE 分类器内存和使用加权集成自蒸馏来进一步提高分类器的表示能力和获得丰富的语义信息。浅层EE分类器的表现力弱，缺乏更高层次的语义信息，导致浅层EE分类器性能不佳，加权集成自蒸馏进一步提高分类器的表示能力和获得丰富的语义信息。
水平角度使用回收类注意力内存来强调有信息的token。在顺序token早期退出中，不同的token被迫在不同的层退出，通过强调下游任务的有信息的token来减少计算。相反，信息较少的token被截断，使它们与后续计算隔离开来。为了衡量token的重要性，使用类注意力来学习token的重要性，并将其与早期退出分类器相结合。

在这里插入图片描述

experiment setup

**数据集：**MNLI-m, SST-2, MRPC, QQP, MNLI-mm, QNLI, RTE

Metrics:
$\rho=\frac{FLOPs_{\text {exec }}}{FLOPs_{\text {total }}}$
Baselines

模型压缩方法：BERT-6L、DistilBERT、BERT-PKD、LayerDrop

动态早退方法：DeeBERT、FastBERT、PABEE

序列长度减少方法：PoWER-BERT、TR-BERT

实现细节：

基于HuggingFace’s transformers BERT-base-uncased实现主干结构；
12层，12个注意力头，768维；
训练batch size为64/128，推理 batch size为1，Adam优化器，学习率2e-5。

result

比较结果：MPEE准确率和加速比最优

在这里插入图片描述

消融实验：
在这里插入图片描述

Attention选择：

在这里插入图片描述

性能和加速的权衡：MPEE 可以在性能和效率之间实现更好的权衡。

在这里插入图片描述

EE的样本分布：MPEE通常比DeeBERT在更早的分类器上退出模型推理，且接近一半的样本在第一层就退出推理。

在这里插入图片描述

不同的类注意力分数的性能：验证类注意是否具有区分含信息的token的能力

在这里插入图片描述

c. Summary

本文提出多角度的早期推理框架MPEE，基于垂直架构提出加权集成自蒸馏和回收EE分类器内存，基于水平角度提出根据类注意力辨别信息token，提前结束信息较少的token以加速推理，回收类注意力内存强调信息token。MPEE实现了超越所有baseline的性能，相比同类DeeBERT早退方法，MPEE实现接近半数的样本在第一层就结束推理的效果。

zoetu

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
【论文阅读】Accelerating Inference for Pretrained Language Models by Unified Multi-Perspective Early Exiti

EE+skipping gate，交叉对比学习训练
复制链接

扫一扫