（2025|ICLR|MIT，TEAL，幅度剪枝）大型语言模型的无训练激活稀疏性

最新推荐文章于 2025-05-05 14:07:50 发布

EDPJ，公众号（EDPJ）

最新推荐文章于 2025-05-05 14:07:50 发布

阅读量744

点赞数 20

分类专栏：论文笔记文章标签：人工智能语言模型深度学习

本文链接：https://blog.csdn.net/qq_44681809/article/details/146195466

版权

论文笔记专栏收录该内容

357 篇文章

订阅专栏

Training-Free Activation Sparsity in Large Language Models

1. 引言

大型语言模型（LLMs）在参数数量和训练数据规模上的扩展使其具备了强大的下游任务能力。然而，由于参数量庞大，这些模型在推理阶段会面临计算和存储上的挑战。在小批量（small-batch）推理部署场景中，自回归推理主要受内存带宽限制，即受限于从离芯存储（off-chip）到片上存储（on-chip）的权重移动速度。相比之下，模型训练和预填充推理（prefill inference）通常受计算能力限制。

现有方法尝试通过 权重量化（weight quantization）和 稀疏化（sparsification）来克服这一内存瓶颈。权重量化可以减少内存需求，而稀疏化则可以减少计算量。然而，大多数稀疏化方法需要额外的训练，例如基于 ReLU 的方法，或者需要数千亿 token 的持续训练（continued pre-training）。这些限制了稀疏化方法的实际应用。

本研究提出 TEAL（Training-Free Activation Sparsity in LLMs），一种简单的、无训练的激活稀疏方法，采用基于幅度剪枝（magnitude pruning）的策略，在整个模型的隐藏状态中应用稀疏化。

TEAL 可在 Llama-2、Llama-3 和 Mistral 等模型系列（规模从 7B 到 70B）上实现 40%-50% 的全模型稀疏性，同时保持最小的性能损失。通过优化稀疏计算核，在 40% 和 50% 的模型稀疏性下分别实现了1.53× 和 1.8× 的推理加速。此外，TEAL 还可以与权重量化结合，实现更高效的推理。

2. 相关工作

2.1 条件计算

条件计算（Conditional Computation）通过选择性激活模型的部分参数来减少计算量。例如，Mixture-of-Experts（MoE） 采用条件计算，在语言模型的前馈网络（FFN）部分选择性激活一部分专家（experts），从而降低计算成本并优化模型扩展性。

2.2 激活稀疏性

激活稀疏性指的是模型隐藏状态中大部分单元值为零的情况。在基于 ReLU 的模型中，这种稀疏性自然存在。例如，在 ReLU 变体的 Transformer 模型中，中间状态的稀疏度可达 95%。DejaVu 通过预测未来层的激活稀疏模式，在 OPT-175B 模型上实现了 2× 的推理加速。然而，由于现代 LLM 逐渐采用 SwiGLU 代替 ReLU，使得原生激活稀疏性大幅降低，这些方法在新模型上难以适用。

2.3 无训练激活稀疏性

近期研究试图在新架构中重新引入激活稀疏性。例如：

ReLUfication：将 SiLU/GELU 替换为 ReLU，并进行大规模的继续预训练，以恢复模型的高激活稀疏性。
CATS（Context-Aware Thresholding for Sparsity）：在 SwiGLU 结构中，对 Wgate 层的输出进行剪枝，从而实现无训练的稀疏化，但整体模型的稀疏度仅 25%。

相比之下，TEAL 方法的优势在于：