论文笔记：A Simple and Effective Pruning Approach for Large Language Models

最新推荐文章于 2024-09-17 14:59:25 发布

UQI-LIUWJ

最新推荐文章于 2024-09-17 14:59:25 发布

阅读量785

点赞数 5

分类专栏：论文笔记文章标签：论文阅读剪枝语言模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40206371/article/details/137719218

版权

论文笔记专栏收录该内容

285 篇文章 71 订阅

订阅专栏

iclr 2024 reviewer 评分 5668

1 intro

大模型网络剪枝的paper
- 在努力保持性能的同时，舍弃网络权重的一个子集
现有方法
- 要么需要重新训练
  - 这对于十亿级别的LLMs来说往往不现实
- 要么需要解决依赖于二阶信息的权重重建问题
  - 这同样可能带来高昂的计算成本
——>引入了一种新颖、简单且有效的剪枝方法，名为Wanda (Pruning by Weights and activations）
- 在每个输出的基础上，剪枝那些乘以相应输入激活后幅度最小的权重
- 无需重新训练或权重更新，剪枝后的LLM可以即刻使用

2 方法

2.1 motivation

考虑一个带有两个输入及其对应权重的神经元：y = w1x1 + w2x2，其中|w1| ≤ |w2|。
- 现在假设目标是选择一个权重进行移除，同时使输出变化最小。
- 标准的幅度剪枝方法总是会移除权重w1
  - 如果输入特征x1和x2的幅度相似，这可能是一个好策略。
  - 然而，最近在LLMs中观察到，两个输入特征的规模可能差异很大。例如，可能|x1| ≫ |x2|，结果是|w1x1| ≫ |w2x2|。
  - 在这种情况下，我们应该移除权重w2，因为这种移除明显对神经元输出y的影响小于移除权重w1。

这个动机示例与最简单的线性层一起暗示了幅度剪枝的一个主要限制：
- 它没有考虑输入激活，输入激活在决定神经元输出时可能与权重幅度同样重要。
- 对于剪枝LLMs，这一点尤其关键，考虑到在其中发现的突出大幅度特征。
- ——>提出了一种专门为LLMs设计的剪枝指标，以处理此类限制，同时也保持了幅度剪枝的简单性

2.2 剪枝指标

2.3 和现有方法的对比

3 实验

3.1 效果比较

3.2 速度比较

3.3 finetune 剪枝后的LLM可以接近不剪枝的LLM

3.4 校准数据（X）的影响

关注

5
点赞
踩
8

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UQI-LIUWJ 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。