算力之巅：A800、A40与L40S大模型SFT性能解析

OpenInfra

于 2024-01-29 10:09:36 发布

阅读量1.6k

点赞数 5

文章标签： gpu算力大语言模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/OpenInfra/article/details/135864146

版权

目前存量市场用于大模型SFT相关的NVIDIA GPU，主要由A40、L40S、A800、H800几种构成。其中，A800和H800性能表现较为技术群体熟知，但在市场高端算力供需比不断降低的情况下，作为替代算力的A40和L40S，究竟是怎样的实际性能表现，以及在不同技术环境下的优劣势分别为何？

为得到这一答案，元沸点基于真实商业需求与数据，使用7个主流开源大模型，分LoRA和全量SFT，对相关芯片能力进行了系统的测试和对比。

测试结论总结如下

如果模型比较小，或者运行LoRA微调对显存要求比较低，整个微调过程能够全部在显存中完成时，L40S和A800性能基本接近，约为A40的1.5至2倍。
当模型较大，整个微调过程无法全部在显存中完成，需要把部分显存要求offload到内存时，A800的性能约为L40S的1.5倍，A40的2倍。
在运行Qwen-72B-Chat的LoRA微调时，如果使用的是A40、L40S等显存较低的机器，需要设置相关offload配置，否则可能训练初始阶段能正常运行，但训练的中途会OOM，当然也可以通过把per_device_train_batch_size参数降低，来减少对内存的消耗和保障稳定性，但训练时间会明显拉长，比如将该值从8降为2，训练时间将从4小时左右增加到10小时左右。

申明：报告由元沸点提供。测试案例使用真实商业需求与数据，并客观提供原始性能日志；但考虑测试数据样例及设备型号组合单一的限制，相关数据及结论仅供技术参考。

查看/下载各模型微调对比原始测试报告。

关注

5
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
算力之巅：A800、A40与L40S大模型SFT性能解析

基于真实商业需求与数据，使用7个主流开源大模型，分LoRA和全量SFT，对相关芯片能力进行了系统的测试和对比。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。