LLM 压缩之二: ShortGPT

最新推荐文章于 2025-04-29 17:20:21 发布

AI-Seeker

最新推荐文章于 2025-04-29 17:20:21 发布

阅读量665

点赞数 6

文章标签： llama

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/l1498487239/article/details/141370733

版权

0. 资源链接

论文: https://arxiv.org/pdf/2403.03853
项目代码: 待开源

1. 背景动机

现有的大语言模型 LLM 推理存在以下问题：

LLM 模型因为 scale law 极大的提高模型的预测能力，但是同样带来较大的推理延时；对于 LLM 应用部署带来较大的挑战。
目前的大模型加速的方法主要分为量化和压缩两种，目前量化和压缩一般需要训练以恢复模型精度，尤其量化较低比特时。

2. 内容提要

通过分析大模型存在的冗余性，发现在模型深度的维度存在大量的冗余；可以通过简单的去除冗余层来加速。
本文提出了一个 BI score 的指标来表征层的重要性，基于 BI score，本文提出一个简单的深度剪枝方法。

3. 技术细节

BI score 计算公式：

层冗余分析：

Layer 剪枝
- 基于 BI score 排序，减去 BI score 小的层。

4. 实验分析

5. 一些思考

ShortGPT 给大模型剪枝提供了一个新视角，对后续的剪枝算法有较大启发。
ShortGPT 目前还比较简单，后续应该会有更多的工作出现，优化当前的方案。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。