【论文阅读】Accelerating Inference for Pretrained Language Models by Unified Multi-Perspective Early Exiti

2022-2023年论文系列之模型轻量化和推理加速

前言

通过Connected Papers搜索引用PaBEE/DeeBERT/FastBERT的最新工作,涵盖:

  • 模型推理加速
  • 边缘设备应用
  • 生成模型
  • BERT模型
  • 知识蒸馏

论文目录

  1. SmartBERT: A Promotion of Dynamic Early Exiting Mechanism for Accelerating BERT Inference

  2. SKDBERT: Compressing BERT via Stochastic Knowledge Distillation

  3. COST-EFF: Collaborative Optimization of Spatial and Temporal Efficiency with Slenderized Multi-exit Language Models

  4. Knowledge Distillation with Reptile Meta-Learning for Pretrained Language Model Compression

  5. Accelerating Inference for Pretrained Language Models by Unified Multi-Perspective Early Exiting

  6. A Simple Hash-Based Early Exiting Approach For Language Understanding and Generation

主要内容:近两年(2022-2023年)动态早退的工作进展,粗读motivation和method以及experiment setup。

5. Accelerating Inference for Pretrained Language Models by Unified Multi-Perspective Early Exiting

a. 论文信息

发表会议:COLING 2022

作者:Jun Kong, Jin Wang, Liang-Chih Yu, Xuejie Zhang

发表单位:

  • 云南大学信息科学与工程学院
  • 台湾元智大学信息管理系

开源:https://github.com/JunKong5/MPEE

b. 内容

motivation

  • **EE存在的限制是主要集中在垂直视角上,忽略了水平视角的操作。**每个transformer编码器层被视为一个基本单元,但忽略了每个层中哪些token需要参与计算。

  • EE方法主要关注易样本的加速推理,而对于难样本,加速推理并没有实现,仍需要执行到最后一层。同时,现有的EE方法的计算消耗与输入序列长度的平方成正比,因此平均加速推理受到限制。

Summary: EE对token级别的冗余计算没有考虑,难样本的加速推理没有实现。

method

提出了一种统一的水平和垂直多角度早期退出框架,即层级和序列token级别的早期退出方法,可以通过模型的层级和token级别来提前退出不必要的计算,从而实现更快的推理。

  • 垂直架构使用回收 EE 分类器内存和使用加权集成自蒸馏来进一步提高分类器的表示能力和获得丰富的语义信息。浅层EE分类器的表现力弱,缺乏更高层次的语义信息,导致浅层EE分类器性能不佳,加权集成自蒸馏进一步提高分类器的表示能力和获得丰富的语义信息。
  • 水平角度使用回收类注意力内存来强调有信息的token。在顺序token早期退出中,不同的token被迫在不同的层退出,通过强调下游任务的有信息的token来减少计算。相反,信息较少的token被截断,使它们与后续计算隔离开来。为了衡量token的重要性,使用类注意力来学习token的重要性,并将其与早期退出分类器相结合。

在这里插入图片描述

experiment setup

**数据集:**MNLI-m, SST-2, MRPC, QQP, MNLI-mm, QNLI, RTE

Metrics:
ρ = F L O P s exec  F L O P s total  \rho=\frac{FLOPs_{\text {exec }}}{FLOPs_{\text {total }}} ρ=FLOPstotal FLOPsexec 
Baselines

模型压缩方法:BERT-6L、DistilBERT、BERT-PKD、LayerDrop

动态早退方法:DeeBERT、FastBERT、PABEE

序列长度减少方法:PoWER-BERT、TR-BERT

实现细节:

  • 基于HuggingFace’s transformers BERT-base-uncased实现主干结构;

  • 12层,12个注意力头,768维;

  • 训练batch size为64/128,推理 batch size为1,Adam优化器,学习率2e-5。

result

比较结果:MPEE准确率和加速比最优

在这里插入图片描述

消融实验:
在这里插入图片描述

Attention选择:

在这里插入图片描述

性能和加速的权衡:MPEE 可以在性能和效率之间实现更好的权衡。

在这里插入图片描述

EE的样本分布:MPEE通常比DeeBERT在更早的分类器上退出模型推理,且接近一半的样本在第一层就退出推理。

在这里插入图片描述

不同的类注意力分数的性能:验证类注意是否具有区分含信息的token的能力

在这里插入图片描述

c. Summary

本文提出多角度的早期推理框架MPEE,基于垂直架构提出加权集成自蒸馏和回收EE分类器内存,基于水平角度提出根据类注意力辨别信息token,提前结束信息较少的token以加速推理,回收类注意力内存强调信息token。MPEE实现了超越所有baseline的性能,相比同类DeeBERT早退方法,MPEE实现接近半数的样本在第一层就结束推理的效果。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
加速基于相似性模型匹配的On-The-Fly相似性保持哈希 摘要: 在软件工程中,模型匹配是一项核心任务,广泛应用于模型驱动工程、软件重构、需求管理、代码检查等领域。由于模型通常包含大量的元素和复杂的结构,模型匹配问题变得越来越具有挑战性。相似性匹配是一种流行的模型匹配方法,它通过计算语义相似度来匹配模型元素。然而,由于相似性匹配算法的计算复杂度很高,导致它们的效率低下。 为了提高相似性匹配的效率,我们提出了一种基于On-The-Fly相似性保持哈希的加速方法。该方法利用哈希表将元素映射到桶中,并在桶中使用相似性保持哈希函数计算相似性,从而避免了在匹配过程中进行昂贵的相似性计算。此外,我们还提出了一种基于哈希冲突的剪枝策略,以进一步提高匹配效率。 我们在多个数据集上进行了实验,并与现有相似性匹配算法进行了比较。实验结果表明,我们的方法可以显著提高匹配效率,同时保持高精度。 关键词:模型匹配,相似性匹配,哈希,剪枝 Abstract: In software engineering, model matching is a core task widely applied in model-driven engineering, software refactoring, requirement management, code inspection, etc. Due to the fact that models usually contain a large number of elements and complex structures, model matching problems become increasingly challenging. Similarity-based matching is a popular model matching approach that matches model elements by computing semantic similarities. However, due to the high computational complexity of similarity-based matching algorithms, they suffer from poor efficiency. To improve the efficiency of similarity-based matching, we propose an acceleration method based on On-The-Fly similarity preserving hashing. This method uses a hash table to map elements to buckets and employs similarity preserving hash functions to compute similarities within buckets, thus avoiding expensive similarity computations during the matching process. In addition, we propose a hash conflict-based pruning strategy to further improve the matching efficiency. We conduct experiments on multiple datasets and compare our method with existing similarity-based matching algorithms. Experimental results show that our method can significantly improve the matching efficiency while maintaining high accuracy. Keywords: Model matching, similarity-based matching, hashing, pruning.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

zoetu

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值