ACL 2022 | 普林斯顿陈丹琦组：模型剪枝的加速方法

最新推荐文章于 2024-01-17 17:58:06 发布

PaperWeekly

最新推荐文章于 2024-01-17 17:58:06 发布

阅读量526

点赞数

文章标签：机器学习人工智能深度学习 python 算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/124641917

版权

©PaperWeekly 原创 · 作者 | BNDSBilly

单位 | 中科院软件所

研究方向 | 自然语言处理

Abstract

大规模预训练语言模型规模不断扩大，导致模型压缩受到了越来越多的关注。当下最主流的两种模型压缩方式是模型剪枝和模型蒸馏。前者可以显著降低模型大小，但很难像后者一样大幅提升运行速度；而后者的缺点在于需要大量 unlabeled data 和昂贵的成本进行训练。

所以在本文中，作者提出了一个 task-specific 结构化剪枝方法 CoFi，可以在不使用任何 unlabeled data 的前提下达到与模型蒸馏方法基本相当的准确性和速度提升。在 GLUE 和 SQuAD 数据集上的实验表明，CoFi 生成的压缩模型可以提升超过倍的速度，并且达到与原模型相当的精度。

论文标题：

Structured Pruning Learns Compact and Accurate Models

收录会议：

ACL 2022

论文链接：

https://arxiv.org/abs/2204.00408

代码链接：

https://github.com/princeton-nlp/CoFiPruning

Introduction

当下，预训练的语言模型已成为自然语言处理的中流砥柱。但这些模型在存储和计算时间方面的成本很高，推动了大量针对模型压缩相关的工作，帮助这些模型能够变得更小、更快。

模型剪枝致力于在一个大规模预训练模型中搜索一个更小、但可以与原模型表现相当的子网络，一般针对于解决特定任务。其整体趋势是移除一些细粒度单元，从而使得最终的子网络有较为灵活的结构。但到目前为止，模型剪枝很难实现对速度的大幅提升（最多达到 倍的提升）。

模型蒸馏则一般提前设定好一个较小的学生模型结构，并将原模型作为教师模型。通过在大量 unlabeled data 上进行蒸馏或 fine-tune 对学生模型参

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
ACL 2022 | 普林斯顿陈丹琦组：模型剪枝的加速方法

©PaperWeekly 原创 ·作者 |BNDSBilly单位 |中科院软件所研究方向 |自然语言处理Abstract大规模预训练语言模型规模不断扩大，导致模型压缩受到了越来越多的关注。当下最主流的两种模型压缩方式是模型剪枝和模型蒸馏。前者可以显著降低模型大小，但很难像后者一样大幅提升运行速度；而后者的缺点在于需要大量 unlabeled data 和昂贵的成本...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。