Fluctuation-based Adaptive Structured Pruning for Large Language Models

516 篇文章 3 订阅

已下架不支持订阅

本文提出FLAP,一种无需再训练的结构化修剪框架,适用于大型语言模型(LLM),旨在降低存储需求和提高推理速度。FLAP利用波动修剪度量确定权重的重要性,自适应地搜索压缩模型结构,并通过补偿机制减轻性能损失。实验结果显示,FLAP在不进行再训练的情况下,性能优于现有最先进的方法。
摘要由CSDN通过智能技术生成

本文是LLM系列文章,针对《Fluctuation-based Adaptive Structured Pruning for Large Language Models》的翻译。

基于波动的大型语言模型自适应结构修剪

摘要

网络修剪是解决大型语言模型(LLM)部署和推理的巨大计算资源需求的一种很有前途的方法。免费再训练对LLM的修剪方法很重要。然而,几乎所有现有的LLM无需再训练的修剪方法都集中在非结构化修剪上,这需要特定的硬件支持来加速。在本文中,我们提出了一种新的LLM无需再训练的结构化修剪框架,称为FLAP(基于模糊推理的自适应结构化修剪)。它通过有效地减少存储和提高推理速度,对硬件友好。为了有效地对LLM进行结构化修剪,我们强调了三个需要高度关注的关键要素:制定结构化重要性指标,自适应搜索全局压缩模型,以及实施补偿机制以减轻性能损失。首先,FLAP基于波动修剪度量来确定当去除一列权重时输出特征图是否容易恢复。然后对重要性得分进行标准化,自适应地确定全局压缩模型结构。最后,FLAP添加了额外的偏置项,以使用基线值恢复输出特征图。我们根据各种语言基准对我们的方法进行了全面评估。在没有任何再训练的情况下,我们的方法显著优于最先进的方法,包括LLM Pruner和Wanda在结构化修剪中的扩展。代码发布于https://github.

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值