ICLR‘25 Spotlight | 模型剪枝新方法 LLM-Streamline

AITIME论道

于 2025-03-28 12:01:15 发布

阅读量273

点赞数

文章标签：剪枝人工智能算法机器学习数据挖掘

原文链接：https://mp.weixin.qq.com/s?__biz=MzIzOTAxOTk3Nw==&mid=2247532986&idx=1&sn=89b1aa9961b56c9011703213e77bcfbb&chksm=e8dd5d7e19f16bbf4f0ef3a7db7916744928ee7756dd26ccd4aa488e30b18eecda2c4f574e96&scene=126&sessionid=0

版权

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

点击 阅读原文 观看作者讲解回放！

个人信息

作者：陈晓栋，中国人民大学硕士研究生

摘要

模型剪枝是一类重要而且应用广泛的模型压缩方法，其通过移除神经网络中的冗余的结构或权重，在尽量保持模型准确度的前提下减少模型的大小，提高模型的计算速度。已有的结构化剪枝方法主要在宽度层面进行剪枝，亦即对隐藏状态大小、注意力头数或注意力维度进行剪枝，但这些方法剪枝出来的模型是不能直接部署的，需要用各个方法自己专用的框架来加载。

人大研究团队提出了一种新的模型剪枝方法，名为 LLM-Streamline。介绍该方法的论文发表在了 ICLR 2025 会议上。该方法通过判断模型层的重要性，并剪去不重要的层来降低模型参数量。这种方法只减少了层数量，所以可以用常用的方法加载模型，且性能相比已有方法高出很多。

论文地址：

https://arxiv.org/pdf/2403.19135

代码仓库：

https://github.com/RUCKBReasoning/LLM-Streamline

LLM-Streamline介绍

如下图所示，LLM-Streamline 的性能对比已有模型剪枝方法有着明显优势：

如图所示，LLM-Streamline 包括了层剪枝与层替换两个步骤：

层剪枝阶段会通过输入与输出的余弦相似度来判断各个层的重要性，层替换阶段则训练了一个轻量级蒸馏小模型来弥补剪枝带来的性能损失。此外，团队发现使用准确度来衡量剪枝模型性能的方法有一定局限性，因此，又提出了一个新的指标——稳定性，来衡量剪枝模型的性能。

LLM-Streamline 提出的同期，业内也出现了多种基于层的模型剪枝方法，它们与 LLM-Streamline 的区别如下：

可以看到，其他方法也采用了余弦相似度来剪枝，也有使用困惑度剪枝的。LLM-Streamline 与其他方法的关键区别在于，其他方法都是对层直接剪枝，而前者则增加了层替换步骤来降低性能损失，最终结果会消耗更少的资源达到更好的性能。

该方法进行层剪枝的基本原理如下：

LLM 广泛使用 Pre-Norm 机制，因此只要衡量图中上式里 f() 函数的影响就可以判断层的重要性。该方法使用余弦相似度作为指标，是因为 Pre-Norm 导致模型层越深，隐藏状态规模越大，层点积就越大，导致 bias 增大，这样就不能用欧氏距离或者点积来判断重要性了。而使用困惑度指标时，用来剪枝的数据集会出现过拟合，导致剪枝后的模型对其他数据集泛化性下降。综合而言，选择余弦相似度指标是比较稳定的。

LLM-Streamline 的层替换机制如下：