Shortened LLaMA: A Simple Depth Pruning for Large Language Models

本文是LLM系列文章,针对《Shortened LLaMA: A Simple Depth Pruning for Large Language Models》的翻译。

缩短LLaMA:一种适用于大型语言模型的简单深度修剪

摘要

现代大型语言模型(LLM)的结构化修剪已经成为减少其高计算需求的一种方式。宽度修剪减少了投影权重矩阵的大小(例如,通过移除注意力头),同时保持了层数。相反,深度修剪会删除整个层或块,同时保持剩余权重的大小不变。目前的大多数研究都集中在仅宽度修剪或宽度和深度修剪的混合上,很少对这两个单元(宽度与深度)对LLM推理效率的影响进行比较分析。在这项工作中,我们证明了简单的深度修剪方法可以在零样本任务性能方面与最近的宽度修剪方法相竞争。我们的修剪方法提高了推理速度,特别是在内存受限的条件下,运行LLM需要有限的批大小,而宽度修剪是无效的。我们希望这项工作能够帮助在本地和边缘设备上部署LLM。

1 引言

2 问题:小批量LLM推理

3 方法:分段修剪

4 实验设置

5 结果

6 相关工作

7 结论

通过引入块修剪方法,我们对网络宽度和深度对LLM压缩的影响进行了深入的比较分析。我们的工作涉及transformer块的一次性拆除,通过评估各种设计选择来确定。尽管我们的方法简单,但它与最近宽度修剪技术的零样本能力相匹配。此外,它在资源受限的场景中提供了显著的推理加速,这些场景需要在有限的

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值