LLM大模型剪枝技术原理（一）-概述

最新推荐文章于 2025-04-28 18:22:34 发布

Langchain

最新推荐文章于 2025-04-28 18:22:34 发布

阅读量1.1k

点赞数 12

文章标签：人工智能 llama langchain RAG 大模型机器学习大语言模型

本文链接：https://blog.csdn.net/Langchain/article/details/141064831

版权

近年来，随着Transformer、MOE架构的提出，使得深度学习模型轻松突破上万亿规模参数，从而导致模型变得越来越大，因此，我们需要一些大模型压缩技术来降低模型部署的成本，并提升模型的推理性能。而大模型压缩主要分为如下几类：

模型剪枝（Pruning）
知识蒸馏（Knowledge Distillation）
模型量化（Quantization）
低秩分解（Low-Rank Factorization）

本文将针对当前大模型剪枝相关的一些工作进行讲述。

文章较长，建议先点赞收藏，后续再慢慢观看。另外，我撰写的大模型相关的博客及配套代码均整理放置在Github：llm-action，有需要的朋友自取。

剪枝简介

模型剪枝（Model Pruning）是一种用于减少神经网络模型参数数量和计算量的技术。它通过识别和去除在训练过程中对模型性能影响较小的参数或连接，从而实现模型的精简和加速。

通常，模型剪枝可以分为两种类型：结构化剪枝（Structured Pruning）、非结构化剪枝（Unstructured Pruning）。

结构化剪枝和非结构化剪枝的主要区别在于剪枝目标和由此产生的网络结构。结构化剪枝根据特定规则删除连接或层结构，同时保留整体网络结构。而非结构化剪枝会剪枝各个参数，从而产生不规则的稀疏结构。

模型剪枝的一般步骤包括：

训练初始模型：首先，需要训练一个初始的大模型，通常是为了达到足够的性能水平。
评估参数重要性：使用某种评估方法（如：权重的绝对值、梯度信息等）来确定模型中各个参数的重要性。
剪枝：根据评估结果，剪枝掉不重要的参数或连接，可以是结构化的或非结构化的。
修正和微调：进行剪枝后，需要进行一定的修正和微调，以确保模型的性能不会显著下降。

模型剪枝可以带来多方面的好处，包括减少模型的存储需求、加速推理速度、减少模型在边缘设备上的资源消耗等。然而，剪枝可能会带来一定的性能损失，因此需要在剪枝前后进行适当的评估和调整。

下面来探讨一些将LLMs与剪枝技术相结合的方法，旨在解决LLMs巨大尺寸和计算成本的问题。

非结构化剪枝方法

非结构化剪枝通过删除特定参数而不考虑其内部结构来简化 LLM。这种方法针对 LLM 中的单个权重或神经元进行，通常通过将阈值以下的参数归零。但是此方法忽略了 LLM 整体结构，导致不规则的稀疏模型，这种不规则性需要专门的压缩技术来有效存储和计算剪枝后的模型。

非结构化修剪通常涉及对 LLM 进行大量重新训练以重新获得准确性，这对于LLMs来说尤其昂贵。该领域的一种创新方法是 SparseGPT（论文：SparseGPT: Massive Language Models Can be Accurately Pruned in One-Shot）。它引入了一种不需要重新训练的一次性剪枝策略。该方法将剪枝视为广泛的稀疏回归问题，并使用近似稀疏回归求解器对其进行求解。 SparseGPT 实现了显著的非结构化稀疏性，在 OPT-175B 和 BLOOM-176B 等大模型上甚至高达 60%，而困惑度的增加很小。

在这里插入图片描述

与此相反，Syed 等人[Syed et al., 2023]提出一种迭代剪枝技术，在剪枝过程中以最少的训练步骤微调模型。

在这里插入图片描述

另一个优化是 LoRAPrune（论文：LoRAPrune: Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning），它将参数高效调整 (PEFT) 方法与剪枝相结合，以增强下游任务的性能。它引入了一种独特的参数重要性标准 [Hu et al., 2022] 使用低秩自适应 (LoRA) 的值和梯度。

在这里插入图片描述

为了解决 SparseGPT 仍然需要的资源密集型权重更新过程，Wanda（论文：Simple and Effective Pruning Approach for Large Language Models）提出了一种新的剪枝指标。 Wanda 根据每个权重的大小和相应输入激活的范数的乘积来评估每个权重，并使用小型校准数据集进行近似。该指标用于线性层输出内的局部比较，从而能够从 LLMs 中删除较低优先级的权重。

在这里插入图片描述

通过观察到 LLM 推理性能和内存使用量很大程度上受到下图四种类型的 Skinny MatMul 的限制。因此，Flash-LLM 旨在基于称为“稀疏加载和密集计算”(LSCD) 的关键方法来优化四个 MatMul。Flash-LLM 作为另一个用于非结构化模型剪枝的大语言模型推理加速方法。主要包含基于Tensor-Core加速的非结构化稀疏矩阵乘法计算的高效GPU代码，可以有效加速LLM中常见矩阵计算的性能。使用Flash-LLM，修剪后的LLM模型可以以更少的内存消耗部署到GPU上，并且可以更高效地执行。

在这里插入图片描述

结构化剪枝方法

结构化剪枝通过删除整个结构组件（例如：神经元、通道或层）来简化 LLM。这种方法同时针对整组权重，具有降低模型复杂性和内存使用量的优点，同时保持整体 LLM 结构完整。

这个领域的一个例子是 LLM-Pruner（论文：LLM-Pruner: On the Structural Pruning of Large Language Models），它采用通用方法来压缩 LLMs，同时保护其多任务解决能力和语言生成能力。此外，LLM-Pruner 还解决了 LLMs 使用大量训练数据带来的挑战，这可能导致大量的数据传输。为了克服这些挑战，LLM-Pruner 结合了依赖性检测算法来查明模型中相互依赖的结构。它还实现了一种有效的重要性估计方法，该方法考虑一阶信息和近似的 Hessian 信息。该策略有助于选择最佳的组用于剪枝，从而改进压缩过程。

在这里插入图片描述

通过研究能否利用现有的预训练 LLMs 来生成更小、通用且具有竞争力的 LLM，同时使用比从头开始训练要少得多的计算量？LLM-Shearing 提出了另外一种结构化剪枝方法。该方法提出了两种技术：

有针对性的结构化剪枝：将源模型剪枝为预先指定的目标架构，同时最大化剪枝模型的性能。
动态批量加载：修剪会导致跨域的信息保留发生变化。本方法为恢复缓慢的域加载更多数据，并且加载比例是动态决定的。

在这里插入图片描述

通过评估一系列广泛的下游任务，包括推理、阅读理解、语言建模和知识密集型任务，我们的 Sheared-LLaMA 模型优于现有的大语言模型。

在这里插入图片描述

结语

本文简单讲述了目前大模型剪枝的一些工作，在大模型参数量越来越大的今天，该方向的研究对于减少模型的大小以及复杂性非常有用。

如何系统的去学习大模型LLM ？

大模型时代，火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业？”“谁的饭碗又将不保了？”等问题热议不断。

事实上，抢你饭碗的不是AI，而是会利用AI的人。

继科大讯飞、阿里、华为等巨头公司发布AI产品后，很多中小企业也陆续进场！超高年薪，挖掘AI大模型人才！ 如今大厂老板们，也更倾向于会AI的人，普通程序员，还有应对的机会吗？

与其焦虑……

不如成为「掌握AI工具的技术人」，毕竟AI时代，谁先尝试，谁就能占得先机！

但是LLM相关的内容很多，现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学，学习成本和门槛很高。

针对所有自学遇到困难的同学们，我帮大家系统梳理大模型学习脉络，将这份 LLM大模型资料 分享出来：包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码领取🆓↓↓↓

👉CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）👈

一、LLM大模型经典书籍

AI大模型已经成为了当今科技领域的一大热点，那以下这些大模型书籍就是非常不错的学习资源。

在这里插入图片描述

二、640套LLM大模型报告合集

这套包含640份报告的合集，涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)

在这里插入图片描述

三、LLM大模型系列视频教程

在这里插入图片描述

四、LLM大模型开源教程（LLaLA/Meta/chatglm/chatgpt）

在这里插入图片描述

LLM大模型学习路线 ↓

阶段1：AI大模型时代的基础理解

目标：了解AI大模型的基本概念、发展历程和核心原理。
内容：
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
- L1.4.1 知识大模型
- L1.4.2 生产大模型
- L1.4.3 模型工程方法论
- L1.4.4 模型工程实践
- L1.5 GPT应用案例

阶段2：AI大模型API应用开发工程

目标：掌握AI大模型API的使用和开发，以及相关的编程技能。
内容：
- L2.1 API接口
- L2.1.1 OpenAI API接口
- L2.1.2 Python接口接入
- L2.1.3 BOT工具类框架
- L2.1.4 代码示例
- L2.2 Prompt框架
- L2.3 流水线工程
- L2.4 总结与展望