ReLU Strikes Back: Exploiting Activation Sparsity in Large Language Models

最新推荐文章于 2024-10-16 23:49:24 发布

UQI-LIUWJ

最新推荐文章于 2024-10-16 23:49:24 发布

阅读量1.1k

点赞数 9

分类专栏：论文笔记文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.csdn.net/qq_40206371/article/details/137596451

版权

285 篇文章 74 订阅

订阅专栏

iclr 2024 oral reviewer 评分 688

1 intro

使用不同的激活函数时，模型的性能非常相似。

通过上一节的实验，LLM的预测准确率并不依赖于激活函数的类型
但现有大多数LLM均使用ReLU之外的激活函数进行训练
- —>为了在推理阶段使这些LLM结合ReLU激活的计算优势，论文进行了各种架构改进实验
  - 将ReLU插入到预训练LLM中，模型在微调过程中可能快速的恢复性能，同时提高推理时的稀疏性
  - 作者将这一过程称为对LLM的“再润滑”（ReLUfication）

阶段1:使用ReLU替换到LLM中的其他激活函数
- 在Falcon 和 Llama分别替换 GELU 和 SiLU
- 由于 OPT 模型已经使用 ReLU 激活，因此这里保持不变

模型在微调阶段很快恢复了其原本的性能，其中Llama（绿色线条）完美的达到了ReLU插入之前的预测准确率

在一阶段中，作者插入了ReLU来替代其他激活函数，这会导致模型down projection层的输入变稀疏
除了down projection层之外，transformer的解码器层中还有其他复杂的矩阵向量乘法
- 例如注意力层中的QKV projection，这些矩阵向量乘法大约占总计算量的约 55%
- ——>对这一部分进行二次稀疏也非常重要
在现代transformer层中，注意力层和 FFN 层的输入都来自归一化层（LayerNorm）
- 这些层可以被视为 MLP 的一种特定形式，因为它们并不是学习参数，而是学习如何对输入数据进行缩放
- ——>将ReLU接在归一化层之后来进行二阶段的稀疏激活