【AI大模型】深度学习模型优化杂谈

最新推荐文章于 2024-09-05 09:22:47 发布

AI小白龙*

最新推荐文章于 2024-09-05 09:22:47 发布

阅读量1.2k

点赞数 15

文章标签：人工智能深度学习自然语言处理 transformer ai大模型语言模型

本文链接：https://blog.csdn.net/2301_81940605/article/details/141821171

版权

深度学习模型优化概述

模型压缩跟轻量化网络模型不同，压缩主要是对轻量化或者非轻量化模型执行剪枝、蒸馏、量化等压缩算法和手段，使得模型更加小、更加轻便、更加利于执行。

基本介绍

随着神经网络模型的复杂性和规模不断增加，模型对存储空间和计算资源的需求越来越多，使得部署和运行成本显著上升。模型压缩的目标是通过减少模型的存储空间、减少计算量或提高模型的计算效率，从而在保持模型性能的同时，降低模型部署的成本。模型压缩的目标可以概括为以下几点：

1） 减少模型显存占用：通过压缩模型参数或使用更高效的表示方式，可以显著减少模型所需的存储空间，从而降低模型在部署和执行过程中的存储成本。

2 ）加快推理速度：通过减少模型计算过程中的乘法和加法操作，可以降低模型的计算开销，达到模型运算加速的目的。

3 ）减少精度损失：在模型压缩过程中，尽可能地减小对模型性能的影响，保持模型在

任务上的精度损失最小化。这需要在压缩技术选择和参数调优过程中进行细致的权衡和实验验证，确保模型在压缩后仍能够保持较高的性能水平。

1. 模型压缩四件套

模型压缩的目标是降低表示、计算权重和中间激活的成本，这些成本占模型成本的大部分。根据如何降低权重和激活成本对模型压缩算法进行分类，有如下四大类别：

1 ）模型量化（Quantization） ：通过减少模型参数的表示精度，来降低模型的存储空

间和计算复杂度。

2） 参数剪枝（Pruning） ：通过删除模型中的不重要连接或参数，来减少模型的大小和计算量。

3） 知识蒸馏（Knowledge Distillation） ：指通过构建一个轻量化的小模型（学生模型），利用性能更好教师模型的信息来监督训练学生模型，以期达到更好的性能和精度。

4） 低秩分解（low-rank factorization） ：通过将模型中具体执行计算的矩阵分解为

低秩的子矩阵，从而减少模型参数的数量和计算复杂度。低秩分解中，矩阵被分解为两个或多个低秩矩阵的乘积形式。

此外，模型压缩算法分为低成本和高成本算法，与上述分类标准无关。高成本的压缩算法需要基于大型数据集进行再训练过程。因此，它们可以生成更准确的压缩模型，但需要更多的时间来压缩模型。另一方面，低成本压缩算法仅基于少量校准数据执行简单的权重调整过程，但是需要注意可能的精度损失，因此训练后量化是常用的低成本压缩算法。

2. 模型压缩流程

如图7-1所示，模型压缩通常处于机器学习模型训练和生产部署之间的阶段。它在模型训练完成后，准备将模型部署到目标环境之前进行。

在这里插入图片描述

图7-1 模型压缩流程

3. 模型压缩应用场景

模型压缩技术在许多应用场景中都有广泛的应用，特别是在资源受限的环境下或对模型性能要求较高的场景。以下是一些常见的模型压缩应用场景：

1 ）移动端应用：在移动设备上部署神经网络模型时，由于存储空间和计算资源的限制，模型压缩变得至关重要。模型压缩可以使得模型在移动设备上运行更加高效，并降低对设备资源的消耗，从而实现更好的用户体验。

2 ）物联网设备：在物联网（IoT）领域，许多设备的存储和计算资源极为有限。模型压缩可以帮助将神经网络模型部署到这些设备上，并在保持模型性能的同时减少资源消耗。

3 ）在线模型服务系统：在推荐、搜索等在线系统中，模型需要实时地处理大量的用户数据，模型压缩可以提高系统的响应速度和吞吐量，从而改善用户体验并降低系统的成本。

4 ）大模型压缩：大语言模型通常具有数以亿计的参数和复杂的网络结构，对存储空间和计算资源要求巨大。通过模型压缩技术，可以将大模型压缩为更小、更高效的版本，以适应资源受限的部署环境，并在保持模型性能的同时降低计算成本。

5 ）自动驾驶：在自动驾驶领域，由于对实时性能和计算资源的要求，模型压缩可以帮助优化神经网络模型以适应相应的场景。

低比特量化方法

计算机里面数值有很多种表示方式，如浮点表示的 FP32、FP16，整数表示的 INT32、INT16、INT8，量化一般是将 FP32、FP16 降低为 INT8 甚至 INT4 等低比特表示，如图7-2所示。

在这里插入图片描述

图7-2 数值有很多种表示格式

模型量化则是一种将浮点值映射到低比特离散值的技术，可以有效的减少模型的参数大小、内存消耗和推理延迟，但往往带来较大的精度损失。尤其是在极低比特（<4bit）、二值网络（1bit）、甚至将梯度进行量化时，带来的精度挑战更大。本节将会重点讲解低比特量化的通用基本原理。

神经网络特点和量化优势

1. 神经网络特点

低比特量化主要用在推理的场景，因此以量化和推理的视角来看，神经网络一般具有以下特点：

1） 模型参数量大：神经网络模型通常具有大量的参数，特别是在深度神经网络中，参数数量可能非常庞大。这导致了存储这些参数所需的空间也很大。

2） 计算量大：神经网络的推理阶段通常需要大量的计算资源，尤其是在深度神经网

络中，包含大量的矩阵乘法和非线性激活函数等操作。这些计算量大大增加了模型在实际部署和执行过程中的成本。

3） 内存占用大：由于神经网络模型的参数量大、计算量大，因此在推理过程中需要

大量的 NPU 内存来存储模型参数、中间计算结果等。这对于嵌入式设备、移动设备等资源受限的环境来说可能是一个挑战。

4） 模型精度高：与传统的机器学习模型相比，神经网络模型通常具有较高的精度和

表现能力。这使得在量化过程中需要考虑如何在减小模型尺寸和计算成本的同时，尽量保持模型的精度和性能。

部署神经网络时，希望网络越小越好，来降低部署成本，于是就需要模型量化等压缩手段。

2. 模型量化优点

通过对神经网络模型进行合理的量化，可以实现以下优势：

1） 加速计算：传统的卷积操作都是使用 FP32 浮点，低比特的位数减少少计算性能也更高，INT8 相对比 FP32 的加速比可达到 3 倍甚至更高。

2） 保持精度：量化会损失精度，这相当于给网络引入了噪声，但是神经网络一般对噪声是不太敏感的，只要控制好量化的程度，对高级任务精度影响可以做到很小。

3） 节省内存：与 FP32 类型相比，FP16、INT8、INT4 低精度类型所占用晶体管空间更小，对应存储空间和传输时间都可以大幅下降。

4 ）节能和减少芯片面积：每个数使用了更少的位数，做运算时需要搬运的数据量少

了，减少了访存开销（节能），同时 NPU 所需的乘法器数目也减少（减少芯片面积）。

总之，模型量化主要是对模型的参数进行压缩，比如 200MB 的模型压缩到 50MB，达到提升运算速度，降低内存和功耗的效果。

落地挑战与思考

在实际部署时，量化技术的落地也有一些挑战，需要综合衡量是否需要使用模型量化。

1. 精度挑战

1）量化方法的精确性：常见的量化方法如线性量化，对于数据分布的描述并不精

确。线性量化将浮点数参数转换为固定位数的整数表示，这种精度的降低可能导致模型在量化后性能下降。对于特定任务和数据分布，需要设计更准确的量化方法以最小化精度损失。

1） 低比特数的影响：将模型从高比特数（如 16 位）量化为低比特数（如 4 位）会导致更大的精度损失。随着比特数的减少，模型的表示能力下降，因此需要在精度和模型大小之间找到平衡点。

2） 任务复杂性对精度的影响：在分类、检测、识别等任务中，任务的复杂性与模型所需的表示能力密切相关。通常情况下，任务越复杂，模型对精度的要求也越高，因此在量化过程中，需要针对不同的任务类型和复杂程度进行定制化的量化策略，以最大程度地保持模型的精度。

3） 模型大小对精度的影响：模型大小与精度之间存在一种权衡关系。一般来说，模型越小，其表达能力和容纳参数的能力也越有限，因此在量化过程中，对于较小的模型，精度损失可能会更加显著。在进行模型量化时，需要综合考虑模型大小、精度要求以及实际应用场景，以确定最适合的量化策略。

2. 硬件支持程度

在模型量化落地时，硬件支持是一个至关重要的因素。不同硬件平台对于低比特量化指令的支持程度不同，这会直接影响到模型在该硬件上的性能和效率。

1） 低比特指令支持差异：不同的硬件架构对于低比特指令的支持程度有所不同。比如 NVIDIA 一些系列显卡支持 INT8张量核计算。

2） 低比特指令计算方式差异：即使硬件平台支持相同的低比特指令，不同的硬件架构可能采用不同的计算方式。例如，8bit 计算一些硬件平台可能支持 INT8 的计算，而另一些可能采用 FP8 计算。

3） 硬件体系结构的 Kernel 优化：不同硬件平台具有不同的体系结构和优化方式。针对特定硬件的优化内核，可以最大限度地利用硬件的并行计算能力和特定指令集，从而提高模型量化后的推理性能。因此，在将模型部署到特定硬件上时，需要进行相应的内核优化，以确保模型能够充分利用硬件的性能优势，如图7-3所示。

在这里插入图片描述

图7-3 针对特定硬件的优化内核

3. 软件算法是否能加速

在模型量化落地过程中，软件算法的加速能力是一个至关重要的考量因素。尽管软件算法的优化可以提高模型量化的执行效率，但在某些情况下，软件算法也可能对性能造成负面影响。

1） 混合比特量化的影响：对于混合比特量化（Mixed Precision Quantization）而言，需要进行量化和反向量化操作，同时可能需要插入 Cast 算子来确保数据格式一致性。这些操作会影响到 Kernel 的执行性能，尤其是在硬件平台不支持相关操作的情况下。因此，对于混合比特量化，需要进行针对性的软件算法优化，以尽量减少这些操作对执行性能的影响。

2） 运行时内存占用优化：除了模型参数量的降低外，还需要关注运行时内存占用。降低模型参数量并不一定会降低运行时内存占用，因为在推理过程中可能需要同时存储模型参数、中间计算结果等数据。因此，软件算法需要考虑如何在保持模型精度的同时，尽量减少运行时内存占用，以提高模型的执行效率。

模型参数量与内存占用的差异：模型参数量的减少并不直接意味着执行内存占用的减少。一些优化技术可能会引入额外的计算和存储开销，从而影响到运行时内存占用。因此，在进行软件算法优化时，需要综合考虑模型参数量和内存占用之间的差异，以实现最优的性能和内存占用平衡。

如何系统的去学习大模型LLM ？

大模型时代，火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业？”“谁的饭碗又将不保了？”等问题热议不断。

事实上，抢你饭碗的不是AI，而是会利用AI的人。

继科大讯飞、阿里、华为等巨头公司发布AI产品后，很多中小企业也陆续进场！超高年薪，挖掘AI大模型人才！ 如今大厂老板们，也更倾向于会AI的人，普通程序员，还有应对的机会吗？

与其焦虑……

不如成为「掌握AI工具的技术人」，毕竟AI时代，谁先尝试，谁就能占得先机！

但是LLM相关的内容很多，现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学，学习成本和门槛很高。

针对所有自学遇到困难的同学们，我帮大家系统梳理大模型学习脉络，将这份 LLM大模型资料 分享出来：包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码领取🆓↓↓↓

👉CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）👈

一、LLM大模型经典书籍

AI大模型已经成为了当今科技领域的一大热点，那以下这些大模型书籍就是非常不错的学习资源。

在这里插入图片描述

二、640套LLM大模型报告合集

这套包含640份报告的合集，涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)

在这里插入图片描述

三、LLM大模型系列视频教程

在这里插入图片描述

四、LLM大模型开源教程（LLaLA/Meta/chatglm/chatgpt）

在这里插入图片描述

LLM大模型学习路线 ↓

阶段1：AI大模型时代的基础理解

目标：了解AI大模型的基本概念、发展历程和核心原理。
内容：
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
- L1.4.1 知识大模型
- L1.4.2 生产大模型
- L1.4.3 模型工程方法论
- L1.4.4 模型工程实践
- L1.5 GPT应用案例

阶段2：AI大模型API应用开发工程

目标：掌握AI大模型API的使用和开发，以及相关的编程技能。
内容：
- L2.1 API接口
- L2.1.1 OpenAI API接口
- L2.1.2 Python接口接入
- L2.1.3 BOT工具类框架
- L2.1.4 代码示例
- L2.2 Prompt框架
- L2.3 流水线工程
- L2.4 总结与展望