本文是LLM系列文章,针对《ProSparse: Introducing and Enhancing Intrinsic Activation Sparsity
within Large Language Models》的翻译。
摘要
激活稀疏性是指在激活输出中存在相当多的弱贡献元素。作为使用ReLU激活函数的模型的一个普遍特性,它已被证明是提高模型推理效率的一个很有前途的范例。然而,大多数大型语言模型(LLM)采用的激活函数没有内在的激活稀疏性(例如,GELU和Swish)。最近的一些努力已经探索引入ReLU或其变体作为替代激活函数,以帮助LLM实现激活稀疏性和推理加速,但很少有人能同时获得高稀疏性和可比较的模型性能。本文介绍了一种有效的稀疏化方法“ProSparse”,在不降低模型性能的情况下,使得LLM以获得更高的激活稀疏性。具体而言,在用ReLU代替LLM的激活函数后,ProSparse采用了渐进稀疏性正则化,