​ACL 2022 | 普林斯顿陈丹琦组:模型剪枝的加速方法

6c435902cc10b34c5fbc4414f4bec911.gif

©PaperWeekly 原创 · 作者 | BNDSBilly

单位 | 中科院软件所

研究方向 | 自然语言处理

6da7a54213958ba4b734ae09af358cc0.png

Abstract

大规模预训练语言模型规模不断扩大,导致模型压缩受到了越来越多的关注。当下最主流的两种模型压缩方式是模型剪枝和模型蒸馏。前者可以显著降低模型大小,但很难像后者一样大幅提升运行速度;而后者的缺点在于需要大量 unlabeled data 和昂贵的成本进行训练。

所以在本文中,作者提出了一个 task-specific 结构化剪枝方法 CoFi,可以在不使用任何 unlabeled data 的前提下达到与模型蒸馏方法基本相当的准确性和速度提升。在 GLUE 和 SQuAD 数据集上的实验表明,CoFi 生成的压缩模型可以提升超过 倍的速度,并且达到与原模型相当的精度。

ffff34b2e0640db1cd3dbbb37edb940e.png

论文标题:

Structured Pruning Learns Compact and Accurate Models

收录会议:

ACL 2022

论文链接:

https://arxiv.org/abs/2204.00408

代码链接:

https://github.com/princeton-nlp/CoFiPruning

e32d8c09590fe6f249f21ac6afe23d46.png

Introduction

当下,预训练的语言模型已成为自然语言处理的中流砥柱。但这些模型在存储和计算时间方面的成本很高,推动了大量针对模型压缩相关的工作,帮助这些模型能够变得更小、更快。

模型剪枝致力于在一个大规模预训练模型中搜索一个更小、但可以与原模型表现相当的子网络,一般针对于解决特定任务。其整体趋势是移除一些细粒度单元,从而使得最终的子网络有较为灵活的结构。但到目前为止,模型剪枝很难实现对速度的大幅提升(最多达到 倍的提升)。

模型蒸馏则一般提前设定好一个较小的学生模型结构,并将原模型作为教师模型。通过在大量 unlabeled data 上进行蒸馏或 fine-tune 对学生模型参

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值