前言
NVIDIA L20 是一款针对中国市场的高性能 GPU,基于 NVIDIA Ada Lovelace 架构开发,具有高性能和可扩展性,支持广泛的 AI 应用和模型训练任务。L20 的定位是全高全长的加速卡,适用于需要较高计算能力的场景。
派欧算力云(www.paigpu.com) 推出全新 GPU 测评栏目,基于实际生产中的业务场景,为大家带来不同 GPU 的性能测评,我们将专注于为大家带来最前沿、最深入的性能评测和行业动态。在这里,你将能第一时间了解到最新款 GPU 的性能表现。今天我们为大家带来的测评是 NVIDIA L20。
NVIDIA L20 规格参数
-
GPU 架构: NVIDIA Ada Lovelace
-
CUDA 核心: 10240
-
频率: 高达 2.2 GHz
-
显存: 48GB HBM3
-
显存位宽: 384 位
-
显存带宽: 1.9 TB/s
-
算力: FP32:90 TFLOPS;FP64:11 TFLOPS
-
能效: 115 FP32 TFLOPS/w
L20 是英伟达于2023年11月16日推出的一款专业显卡。它采用 5nm 制造工艺,基于 AD102 图形处理器。该卡支持 DirectX 12 Ultimate。AD102 图形处理器是一款大型芯片,具有 609 mm² 的芯片面积和763亿个晶体管。与完全解锁的 TITAN Ada 不同,TITAN Ada 虽然使用相同的 GPU 但启用了全部 18432 个着色器,但英伟达在 L20上禁用了一些着色单元,以达到产品目标着色器数量。它拥有 11776 个着色单元、368 个纹理映射单元和 128 个 ROPs。此外,还包括 368 个 tensor cores,有助于提高机器学习应用的速度。该卡还具有 92 个光线追踪加速核心。英伟达为 L20 配备了 48GB 内存,通过 384 位内存接口连接。GPU 运行频率为 1440 MHz,可提升至 2520 MHz,内存运行频率为 2250 MHz(有效值为18 Gbps)。
主要特性
-
支持最新的 NDR Infiniband: 可实现高速互连和低延迟通信。
-
支持大规模并行计算: 可处理海量数据集和复杂模型。
-
先进的 AI 加速功能: 包括 Tensor Core、RT Core 和 DLSS,可显著提升 AI 训练和推理性能。
-
兼容广泛的 AI 框架: 包括 TensorFlow、PyTorch 和 RAPIDS,可轻松集成到现有 AI 工作流中。
应用场景
-
NVIDIA L20 主要适用于云端推理任务以及大规模的 AI 推理场景。它具备强大的计算能力和高密度的存储容量,这使得它在处理如图像识别、自然语言处理等复杂的云端推理任务时表现出色。此外,L20 也适用于需要高性能和高效能云计算平台的场景,如数据中心和云服务提供商等。
L20 基于 Ada 架构,搭配 48GB GDDR6 显存,显存带宽为 448GB/s,相较于前代产品 A10 有所提升。在性能上,L20 大约是 L2 的两倍,能够满足各种复杂推理任务的需求。
NVIDIA L20 具备非常优化的性价比,满足中小参数规模的大模型预训练,大参数规模的大模型二次调优和推理,同时也完整保留了L40s的超级图像处理能力。
它保留了 L40s 的光线追踪核心和 DisplayPort 输出以及支持 AV1 的 NVENC / NVDEC 等功能,同时,部署 L20的功耗较低,仅为 SXM5 系统功耗的三分之一。这对于那些想要横向扩展但每个机架可能没有大量电力预算的人来说非常有吸引力。
性能测评方法和数据
测试方法
我们预定义了 5 组不同 token 输入和输出长度的配置,针对两种显卡在不同输入输出的场景下,对百川 2 13B 大模型调用,获取最大 QPS 值时的模型吞吐情况。
测试方法
使用单卡 GPU,在 Stable Diffusion WebUI 中,统一配置为:尺寸设置 512*512,steps 设置 100,同时保持 Prompt 和 Negative 设置一致,生成至少 10 张图,取生图每秒生成的迭代次数平均值。
测评总结
-
在 Baichuan2-13B 模型下,双卡 L20 平均性能约是双卡 3090 的 1.81~2.61 倍
-
在 Stable Diffusion 文生图的场景下,单卡 L20 平均性能约是单卡 3090 显卡的 1.06~1.16 倍
了解更多
如果你有更多想看的测评内容,欢迎在评论区留言~
在这里,我们将为您提供最新、最全面的GPU性能评测,帮助您了解在生产环境中,不同 GPU 的推理表现。
后续我们会推出一系列的 GPU 测评文章,点击【关注】获取更多干货信息...