本文是LLM系列文章,针对《Shortened LLaMA: A Simple Depth Pruning for Large Language Models》的翻译。
摘要
现代大型语言模型(LLM)的结构化修剪已经成为减少其高计算需求的一种方式。宽度修剪减少了投影权重矩阵的大小(例如,通过移除注意力头),同时保持了层数。相反,深度修剪会删除整个层或块,同时保持剩余权重的大小不变。目前的大多数研究都集中在仅宽度修剪或宽度和深度修剪的混合上,很少对这两个单元(宽度与深度)对LLM推理效率的影响进行比较分析。在这项工作中,我们证明了简单的深度修剪方法可以在零样本任务性能方面与最近的宽度修剪方法相竞争。我们的修剪方法提高了推理速度,特别是在内存受限的条件下,运行LLM需要有限的批大小,而宽度修剪是无效的。我们希望这项工作能够帮助在本地和边缘设备上部署LLM。
1 引言
2 问题:小批量LLM推理
3 方法:分段修剪
4 实验设置
5 结果
6 相关工作
7 结论
通过引入块修剪方法,我们对网络宽度和深度对LLM压缩的影响进行了深入的比较分析。我们的工作涉及transformer块的一次性拆除,通过评估各种设计选择来确定。尽管我们的方法简单,但它与最近宽度修剪技术的零样本能力相匹配。此外,它在资源受限的场景中提供了显著的推理加速,这些场景需要在有限的