本文是LLM系列文章,针对《Pruner-Zero: Evolving Symbolic Pruning Metric from scratch for Large Language Models》的翻译。
摘要
尽管具有非凡的功能,但大型语言模型(LLM)由于其庞大的规模而面临部署挑战。修剪方法会减少一个子集的权重来加速,但其中许多方法需要重新训练,这是非常昂贵和计算要求很高的。最近,训练后修剪方法引入了新的度量,使LLM的修剪无需再训练。然而,这些指标需要人类专家的参与和繁琐的试错。为了有效地识别高级修剪度量,我们开发了一个使用遗传规划搜索符号修剪度量的自动框架。特别地,我们设计了一个包含现有修剪度量的精细搜索空间,以发现潜在的符号修剪度量。我们提出了一种相反的操作简化策略,以增加人口的多样性。通过这种方式,Pruner Zero允许自动生成符号修剪度量。基于搜索结果,我们探索了修剪度量与修剪后性能之间的相关性,并总结了一些原理。在语言建模和零样本任务上对LLaMA和LLaMA-2进行的大量实验表明,我们的PrunerZero比SOTA后训练修剪方法获得了更好的性能。代码位于:https://github.com/pprp/Pruner-Zero.