ProSparse: Introducing and Enhancing Intrinsic Activation Sparsity within Large Language Models

本文介绍了ProSparse方法,通过在大型语言模型中引入ReLU并应用渐进稀疏性正则化,实现了高激活稀疏性,同时保持了模型性能。在LLaMA2-7B和LLaMA2-13B模型上,ProSparse达到了89.32%和88.80%的稀疏性,无性能损失,并且在推理加速实验中表现出优势。
摘要由CSDN通过智能技术生成

本文是LLM系列文章,针对《ProSparse: Introducing and Enhancing Intrinsic Activation Sparsity
within Large Language Models》的翻译。

ProSparse:在大型语言模型中引入和增强内在激活稀疏性

摘要

激活稀疏性是指在激活输出中存在相当多的弱贡献元素。作为使用ReLU激活函数的模型的一个普遍特性,它已被证明是提高模型推理效率的一个很有前途的范例。然而,大多数大型语言模型(LLM)采用的激活函数没有内在的激活稀疏性(例如,GELU和Swish)。最近的一些努力已经探索引入ReLU或其变体作为替代激活函数,以帮助LLM实现激活稀疏性和推理加速,但很少有人能同时获得高稀疏性和可比较的模型性能。本文介绍了一种有效的稀疏化方法“ProSparse”,在不降低模型性能的情况下,使得LLM以获得更高的激活稀疏性。具体而言,在用ReLU代替LLM的激活函数后,ProSparse采用了渐进稀疏性正则化,其因子沿正弦曲线在多个阶段平滑增加。这可以通过避免激活分布的根本性变化来增强激活稀疏性并减轻性能退化。使用ProSparse,LLaMA2-7B和LLaMA2-13B分别获得89.32%和88.80%的高稀疏性,实现了与其原始Swish激活版本相当的性能。我们的推理加速实验进一步证明了更高的激活稀疏性带来的实际加速。

1 引言

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值