本文是LLM系列文章,针对《ProSparse: Introducing and Enhancing Intrinsic Activation Sparsity
within Large Language Models》的翻译。
摘要
激活稀疏性是指在激活输出中存在相当多的弱贡献元素。作为使用ReLU激活函数的模型的一个普遍特性,它已被证明是提高模型推理效率的一个很有前途的范例。然而,大多数大型语言模型(LLM)采用的激活函数没有内在的激活稀疏性(例如,GELU和Swish)。最近的一些努力已经探索引入ReLU或其变体作为替代激活函数,以帮助LLM实现激活稀疏性和推理加速,但很少有人能同时获得高稀疏性和可比较的模型性能。本文介绍了一种有效的稀疏化方法“ProSparse”,在不降低模型性能的情况下,使得LLM以获得更高的激活稀疏性。具体而言,在用ReLU代替LLM的激活函数后,ProSparse采用了渐进稀疏性正则化,其因子沿正弦曲线在多个阶段平滑增加。这可以通过避免激活分布的根本性变化来增强激活稀疏性并减轻性能退化。使用ProSparse,LLaMA2-7B和LLaMA2-13B分别获得89.32%和88.80%的高稀疏性,实现了与其原始Swish激活版本相当的性能。我们的推理加速实验进一步证明了更高的激活稀疏性带来的实际加速。