本文是LLM系列文章,针对《Shortened LLaMA: A Simple Depth Pruning for Large Language Models》的翻译。
摘要
现代大型语言模型(LLM)的结构化修剪已经成为减少其高计算需求的一种方式。宽度修剪减少了投影权重矩阵的大小(例如,通过移除注意力头),同时保持了层数。相反,深度修剪会删除整个层或块,同时保持剩余权重的大小不变。目前的大多数研究都集中在仅宽度修剪或宽度和深度修剪的混合上,很少对这两个单元(宽度与深度)对LLM推理效率的影响进行比较分析。在这项工作中,我们证明了简单的深度修剪方法可以在零样本任务性能方面与最近的宽度修剪方法相竞争。我们的修剪方法提高了推理速度,特别是在内存受限的条件下,运行LLM需要有限的批大小,而宽度修剪是无效的。我们希望这项工作能够帮助在本地和边缘设备上部署LLM。