算力之巅:A800、A40与L40S大模型SFT性能解析

目前存量市场用于大模型SFT相关的NVIDIA GPU,主要由A40、L40S、A800、H800几种构成。其中,A800和H800性能表现较为技术群体熟知,但在市场高端算力供需比不断降低的情况下,作为替代算力的A40和L40S,究竟是怎样的实际性能表现,以及在不同技术环境下的优劣势分别为何?

为得到这一答案,元沸点基于真实商业需求与数据,使用7个主流开源大模型,分LoRA和全量SFT,对相关芯片能力进行了系统的测试和对比。

测试结论总结如下

  1. 如果模型比较小,或者运行LoRA微调对显存要求比较低,整个微调过程能够全部在显存中完成时,L40S和A800性能基本接近,约为A40的1.5至2倍。

  2. 当模型较大,整个微调过程无法全部在显存中完成,需要把部分显存要求offload到内存时,A800的性能约为L40S的1.5倍,A40的2倍。

  3. 在运行Qwen-72B-Chat的LoRA微调时,如果使用的是A40、L40S等显存较低的机器,需要设置相关offload配置,否则可能训练初始阶段能正常运行,但训练的中途会OOM,当然也可以通过把per_device_train_batch_size参数降低,来减少对内存的消耗和保障稳定性,但训练时间会明显拉长,比如将该值从8降为2,训练时间将从4小时左右增加到10小时左右。

申明:报告由元沸点提供。测试案例使用真实商业需求与数据,并客观提供原始性能日志;但考虑测试数据样例及设备型号组合单一的限制,相关数据及结论仅供技术参考。

查看/下载各模型微调对比原始测试报告。

  • 5
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值