LLM 模型压缩之一 | APT

0. 资源链接

  • 论文: APT: Adaptive Pruning and Tuning Pretrained Language Models for Efficient Training and Inference.

  • 项目: https://github.com/ROIM1998/APT

1.背景动机

现有的大模型压缩加速存在以下问题:

  • PEFT: 可以低成本为下游任务微调,但是整个模型的推理效率无法提升。

  • Pruning:可以提升推理效率,但是训练成本较高。

  • Joint PEFT and Pruning:综合两者的优势,以较低成本训练和提高推理效率。

目前 Joint PEFT and Pruning 仍存在精度损失较大的问题,本文提出 APT 来改善这个问题。

2.内容提要

  • 本文提出了一个高效的APT微调方法,能自适应地剪枝和微调。

  • APT 结合了 PEFT 和结构化剪枝的优势,能让训练和测试更加高效。

  • APT 在 RoBerTa 和 T5 能获得 2x 加速,精度能有 98% 的保持。

3. 技术细节

  • APT 方法基于 LoRA 模块设计 APT adapter, 旨在为后续的自适应剪枝和微调服务。

  • APT 在微调的早期,进行剪枝去掉和微调任务的影响较小的模块

3.1 架构

  • APT 方法基于 LoRA 模块设计 APT adapter, 旨在为后续的自适应剪枝和微调服务。

  • APT 在微调的早期,进行剪枝去掉和微调任务的影响较小的模块。

3.2 方法细节

  • 定义优化问题:

  • APT adapter:

  • Low-cost Adaptive LM Pruning: Outlier-aware salience scoring of LM parameters 和 Efficient search of LM block parameters.

  • Adaptive and Efficient LM Tuning: Salience scoring of APT adapter 和 Dynamically adding APT adapter parameters to recover task performance.

  • Efficient Self-Knowledge Distillation

3.3 实验分析

  • APT 的剪枝效果要明显高于其他 LoRA + Prune 和 LoRA + Prune + Distill.

4.一些思考

  • APT结合 PEFT 和结构化剪枝的优势,取得 SOTA 的精度。

  • APT 结合很多高效的 trick,未来的优化工作,还可以优化结构化剪枝。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值