ACL 2022 | DQ-BART:基于联合蒸馏和量化的高效Seq2Seq模型

本文提出DQ-BART,通过联合模型蒸馏和量化,将BART模型压缩16.5倍,同时在多个NLP任务上保持良好性能。研究证明在资源受限的场景中,DQ-BART能实现高效的序列到序列建模。
摘要由CSDN通过智能技术生成

cf42c8d03a7abbf7c7d2c1721c9b2deb.gif

©PaperWeekly 原创 · 作者 | BNDSBilly

单位 | 中科院软件所

研究方向 | 自然语言处理

fdf588f9e9d57449d60368d3af369f48.png

Abstract

大规模预训练端到端模型如 BART 和 T5 已经在各类 NLP 任务上取得了 sota 表现。然而,由于它们的大内存需求和高延迟,这些模型在资源受限的场景中的应用受到了巨大的挑战。

为解决这个问题,本文同时使用了模型蒸馏和模型量化两种方式,将 BART 模型压缩了 16.5 倍,在多个摘要和 QA 数据集上达到了与原模型相当的表现。

338676912ea18f59aeb227cf12c0210a.png

论文标题:

DQ-BART: Efficient Sequence-to-Sequence Model via Joint Distillation and Quantization

论文链接:

https://arxiv.org/abs/2203.11239

85dc79dafca1c6f898ddd0b1bb8844e2.png

Introduction

预训练端到端模型如 BART 和 T5 在各类 NLP 任务(如文本摘要,机器翻译,QA,信息抽取等)上取得了很大的成功。然而,这些大规模预训练模型参数量已经达到了几亿甚至数十亿,并且还在不断增加。这导致推理期间的计算和内存资源需求很大,且很难部署到实际场景,尤其是实时及资源受限的场景。

以上问题促进了对模型压缩的研究,模型压缩可以使大规模预训练模型变快、变小,且保持与原模型相当的表现。近期模型量化收到了较多的关注,因为它不需要改变精心设计的模型结构,只需要用较少的位数来表示模型权重,从而降低模型规模。然而,对编码器-解码器结构的 transformers 模型量化的研究较少。Prato 等人利用 8-bit 量化压缩了端到端的 transformer 模型。但因为精度损失问题,不能继续压缩到 4-bit,且并不是针对大规模预训练模型的量化,也仅仅面向了机器翻译;Shleifer

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值