本文是LLM系列文章,针对《BESA: PRUNING LARGE LANGUAGE MODELS WITH BLOCKWISE PARAMETER-EFFICIENT SPARSITY ALLOCATION》的翻译。
摘要
大型语言模型(LLM)在各种任务中表现出了出色的性能,如文本摘要、文本问答等。虽然它们的性能令人印象深刻,但由于其庞大的参数,其计算足迹可能令人望而却步。SparseGPT和Wanda等现有解决方案试图通过权重修剪来缓解这一问题。然而,他们的分层方法会对模型的输出产生显著的扰动,并需要细致的超参数调整,如修剪率,这可能会对整体模型性能产生不利影响。为了解决这一问题,本文引入了一种新的LLM修剪技术,称为分块参数高效稀疏分配(BESA),通过应用分块重建损失。与典型的逐层修剪技术相比,BESA具有两个独特的属性:i)它针对单个Transformer块的总体修剪误差,以及ii)它以可微分的方式分配特定于层的稀疏性,这两个属性都确保了修剪后性能下降的减少。我们的实验表明,BESA实现了最先进的性能,在短短五小时内就可以在单个A100 GPU上高效地修剪LLaMA1和LLaMA2等具有7B到70B参数的LLM。此处提供代码。<