本文是LLM系列文章,针对《Fluctuation-based Adaptive Structured Pruning for Large Language Models》的翻译。
摘要
网络修剪是解决大型语言模型(LLM)部署和推理的巨大计算资源需求的一种很有前途的方法。免费再训练对LLM的修剪方法很重要。然而,几乎所有现有的LLM无需再训练的修剪方法都集中在非结构化修剪上,这需要特定的硬件支持来加速。在本文中,我们提出了一种新的LLM无需再训练的结构化修剪框架,称为FLAP(基于模糊推理的自适应结构化修剪)。它通过有效地减少存储和提高推理速度,对硬件友好。为了有效地对LLM进行结构化修剪,我们强调了三个需要高度关注的关键要素:制定结构化重要性指标,自适应搜索全局压缩模型,以及实施补偿机制以减轻性能损失。首先,FLAP基于波动修剪度量来确定当去除一列权重时输出特征图是否容易恢复。然后对重要性得分进行标准化,自适应地确定全局压缩模型结构。最后,FLAP添加了额外的偏置项,以使用基线值恢复输出特征图。我们根据各种语言基准对我们的方法进行了全面评估。在没有任何再训练的情况下,我们的方法显著优于最先进的方法,包括LLM Pruner和Wanda在结构化修剪中的扩展。代码发布于https://github.