解密大模型训练、微调和推理运行时的性能问题

最新推荐文章于 2024-08-09 22:24:25 发布

泡椒凤爪面

最新推荐文章于 2024-08-09 22:24:25 发布

阅读量136

点赞数 3

文章标签：人工智能语音识别产品经理媒体自媒体

本文链接：https://blog.csdn.net/CSDN_224022/article/details/141068344

版权

本文介绍了香港科技大学与北京大模科技的研发团队对不同大小LLMs在多种GPU平台上的性能作出的基准测试。

大型语言模型（LLMs）在学术和工业界都取得显著进展，推动了开源框架和技术的更新，以加速LLMs的训练和应用。然而，在不同硬件和软件配置下，性能差异显著。香港科技大学(广州)褚晓文教授团队与北京大模科技研发团队合作对不同大小LLMs在多种GPU平台上的性能进行了基准测试，包括各种优化技术，还深入分析了LLMs的子模块，包括计算和通信操作。这项工作旨在帮助用户和研究人员更好地理解和选择LLMs的配置，以及发现进一步优化性能的潜在机会。

原文地址：https://arxiv.org/abs/2311.03687

一、性能评估问题

LLMs投入生产包括预训练、微调和服务三个主要阶段。预训练是最耗时阶段，通常需要上千显卡以及数月。微调阶段则针对特定任务调整模型。最后将模型作为网络服务部署，提供推理结果。

然而，LLM框架和优化技术在不同硬件上的性能仍有待探索。重要的问题包括：特定硬件配置的需求、时间成本、启用的优化技术，以及现有系统是否充分利用了GPU资源。为此，该研究在不同GPU服务器上对LLM流程的运行时和内存性能进行了基准测试，涵盖了不同框架、硬件、优化技术的性能评估，及对模型模块和操作的详细分析。

从微调到部署LLaMA2模型的完整流程

二、测试方法

全面的基准测试方法评估了Llama2模型在三种8卡GPU平台（NVIDIA A800、RTX4090和RTX3090）上的性能。这些平台代表市场上不同级别的高性能计算资源。测试聚焦于预训练、微调和服务三个阶段，使用多种性能指标，如端到端步骤时间、模块级时间和操作时间，以深入分析LLMs的时间效率。目的是全面理解LLMs在不同硬件上的表现，并为其优化提供洞见。

三、预训练

这部分主要分析了不同规模模型（7B、13B、70B）的预训练性能，主要关注迭代时间或吞吐量和内存消耗和模块级和操作级的微基准测试。

3.1 端到端性能分析

DeepSpeed的训练速度优势主要归因于其数据并行训练的效率。但是，同等批量大小下，DeepSpeed相较于基于张量并行的Megatron-LM消耗更多GPU内存。

Megatron-LM与DeepSpeed比较

3.2 不同GPU平台的扩展效率

基于DeepSpeed和量化技术研究不同硬件平台的扩展效率，结果表明：A800平台几乎实现了线性扩展；而RTX4090和RTX3090平台的扩展效率略低，其中RTX4090比RTX3090高4.9%。在RTX3090上，使用NVLink连接可以额外提升约10%的扩展效率。

在不同GPU上进行数据并行训练的扩展性

3.3 硬件及优化技术对训练性能的影响

研究也通过DeepSpeed来评估不同内存和计算效率高的方法对训练性能的影响，结果如下表所示。

在四种类型的8-GPU平台上，我们比较了基线设置（Naive）、ZeRO-2（Z2）和3（Z3）、卸载（O）、量化（Q）、激活值重计算（R）以及FlashAttention（F）在预训练性能上的表现。我们报告的吞吐量单位为10^3 tokens/s (T/s)，每个吞吐量值的右下角显示了三次独立运行的平均值和标准差，以及峰值GPU内存使用量（M）以GB为单位。在每次运行中，吞吐量在30步预热步骤后的100步中取平均。“-” 表示内存溢出（OOM）。

3.3.1 硬件对预训练的影响

在考虑硬件影响时，A800的吞吐量通常是RTX4090和RTX3090的50倍。但在使用量化技术时，RTX GPU的性能可达到A800的一半。在RTX4090和RTX3090的比较中，RTX4090性能比RTX3090高出50%，而RTX3090上的NVLink能提升约10%的性能。

3.3.2 解析子模块

为了深入理解预训练性能，该研究对预训练过程进行了模块化分析。有趣的发现是，约37%的时间被用于优化器。后续将计划进一步探讨这一现象，特别是重计算的影响。

该研究也对前向和后向阶段进行了时间分析。在Llama2模型中，decoder layer占据了大部分计算时间。特别是，依赖于通用矩阵乘法（GEMM）的多层感知器（MLP）和查询、键、值（QKV）投影是最耗时的部分。此外，RMSNorm和RoPE模块也因大量元素级操作而占用了相当时间。在后向阶段，由于梯度在GPU间同步，会产生额外的通信开销。

Llama2-7B在前向和后向阶段的模块时间消耗和百分比。解码器层中模块的时间消耗是32次迭代的累积时间。

3.3.3 FlashAttention的影响

下表显示，FlashAttention可以分别提高34.9%和24.7%的注意力模块速度。

四、微调

在微调方面，该研究专注于对比LoRA和QLoRA在不同模型大小和硬件设置下的性能，发现LoRA的吞吐量是QLoRA的两倍，但QLoRA的内存消耗仅为LoRA的一半。结合FlashAttention和ZeRO-2使用时，LoRA微调吞吐量提升20%和10%。微调Llama2-13B模型比Llama2-7B模型吞吐量下降约30%。使用所有优化技术，甚至RTX4090和RTX3090也能微调Llama2-70B模型，总吞吐量约为每秒200个tokens。

在4种类型的8-GPU服务器上，包括A800、RTX4090、RTX3090 w/ NVLink和RTX3090 w/o NVLink，我们比较了LoRA (L)、QLoRA (QL)以及不同优化方法的微调性能，包括ZeRO stage 2和3 (Z2, Z3)、FlashAttention (F)、卸载 (O)、激活重计算 ®。批处理大小固定为1。我们报告了三次独立运行中的平均吞吐量10^3 tokens/s (T/s)及其标准差，以及峰值GPU内存使用量 (M)（以GB为单位）。

五、推理

5.1 端到端推理性能分析

5.1.1 吞吐量分析

在比较不同硬件平台和推理框架的吞吐量时，发现TGI在24GB GPU上效果好，而LightLLM则在高性能GPU（如A800/A100系列）上表现最佳。

5.1.2 延迟比较

在比较同一GPU平台上不同推理框架的延迟时，发现RTX3090和A800上TGI有最低延迟，其次是LightLLM，vLLM延迟最高。另外，消费级GPU上推理时间随模型参数增长而增加，尤其在RTX4090上，Llama2-7B与Llama2-70B推理时间差可达13倍。而在A800上，大模型推理时间差较小，显示A800能有效处理大型LLMs，70B模型未达其性能极限。

Llama2-7B在RTX3090和A800

RTX4090上7B vs 70B

5.1.3 推理总结

在吞吐量和延迟方面，A800平台优于RTX3090和RTX4090。RTX3090相对于RTX4090有轻微优势。三个推理框架在吞吐量上表现类似，但TGI框架在延迟上更好。在A800上，LightLLM吞吐量最高，延迟与TGI接近。

5.2 微基准测试

5.2.1 通信分析

该研究也测试了NVLink的高速通信能力。测试显示，装备NVLink的RTX3090在AllGather和ReduceScatter通信操作中性能优于未装备NVLink的同型号

在数据并行中，后向阶段使用AllReduce同步权重，而ZeRO-2和ZeRO-3分别使用Reduce和ReduceScatter原语。结果表明，NVLink对通信效率有显著提升。

实验结果显示，ReduceScatter内核在处理小数据量时启动时间占主导，而大数据量时性能依赖于带宽。ZeRO-2和ZeRO-3使用AllGather更新参数，其内核性能也类似。

那么，如何系统的去学习大模型LLM？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

作为一名热心肠的互联网老兵，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

所有资料 ⚡️ ，朋友们如果有需要全套《LLM大模型入门+进阶学习资源包》，扫码获取~

篇幅有限，部分资料如下：

👉LLM大模型学习指南+路线汇总👈

💥大模型入门要点，扫盲必看！
在这里插入图片描述
💥既然要系统的学习大模型，那么学习路线是必不可少的，这份路线能帮助你快速梳理知识，形成自己的体系。

👉大模型入门实战训练👈

💥光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。
在这里插入图片描述

👉国内企业大模型落地应用案例👈

💥《中国大模型落地应用案例集》 收录了52个优秀的大模型落地应用案例，这些案例覆盖了金融、医疗、教育、交通、制造等众多领域，无论是对于大模型技术的研究者，还是对于希望了解大模型技术在实际业务中如何应用的业内人士，都具有很高的参考价值。 （文末领取）
在这里插入图片描述
💥《2024大模型行业应用十大典范案例集》 汇集了文化、医药、IT、钢铁、航空、企业服务等行业在大模型应用领域的典范案例。

在这里插入图片描述

👉LLM大模型学习视频👈

💥观看零基础学习书籍和视频，看书籍和视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。 （文末领取）
在这里插入图片描述

👉640份大模型行业报告👈

💥包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。
在这里插入图片描述

👉获取方式：

这份完整版的大模型 LLM 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

😝有需要的小伙伴，可以Vx扫描下方二维码免费领取🆓

泡椒凤爪面

关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
解密大模型训练、微调和推理运行时的性能问题

本文介绍了香港科技大学与北京大模科技的研发团队对不同大小LLMs在多种GPU平台上的性能作出的基准测试。大型语言模型（LLMs）在学术和工业界都取得显著进展，推动了开源框架和技术的更新，以加速LLMs的训练和应用。然而，在不同硬件和软件配置下，性能差异显著。香港科技大学(广州)褚晓文教授团队与北京大模科技研发团队合作对不同大小LLMs在多种GPU平台上的性能进行了基准测试，包括各种优化技术，还深入分析了LLMs的子模块，包括计算和通信操作。
复制链接

扫一扫