NVIDIA最新发布L40S通用GPU，为数据中心赋予出色的 AI 和图形性能

最新推荐文章于 2025-04-23 19:07:09 发布

Ai17316391579

最新推荐文章于 2025-04-23 19:07:09 发布

阅读量1.9k

点赞数

分类专栏：深度学习服务器文章标签：人工智能自然语言处理深度学习服务器神经网络语音识别目标检测

原文链接：https://zhuanlan.zhihu.com/p/652491400

版权

深度学习服务器专栏收录该内容

54 篇文章

订阅专栏

2023年8月，英伟达日前发布了全新的 NVIDIA L40S GPU，以及搭载该 GPU 的 OVX 服务器系统，这款计算加速显卡可以用于图形渲染、人工智能大模型训练和推理、三维设计和视频处理等用途，AI 运算性能高于 A100 GPU。由于这款加速卡不支持 NVLink，且没有选择采用 HBM 显存，而是采用 GDDR6 ECC 显存，因此 L40S 相比 A100、H100 更加适用于边缘运算。

据悉，这款 L40S GPU 搭配最新发布的 OVX 服务器，可适用于 AI 大模型训练和推理、三维设计、可视化、视频处理、工业数字化等多种用途，相比 A100 GPU，这套“相得益彰”的 L40S 系统能够“增强生成式 AI、图形和视频处理能力，并满足不断增长的算力需求”。

L40S GPU 是英伟达此前 L40 GPU 的升级版本，配备 48GB GDDR6 ECC 显存，该 GPU 基于 Ada Lovelace 架构，搭载第四代 Tensor Core 和 FP8 转换引擎，运算速度是上一代的 5 倍。但依然不支持 NVLink。

英伟达声称，L40S 的生成式 AI 推理性能比 A100 高 1.2 倍，训练性能高 1.7 倍，英伟达表示，对于“具有数十亿个参数和多种数据模式的复杂 AI 工作而言”，L40S 的效能更加突出。

英伟达表示，英伟达 L40S GPU 将在今年秋季上市，每台英伟达 OVX 服务器系统最多可搭载 8 个 L40S 加速卡，不过英伟达并没有透露该 GPU 的定价。

英伟达同时表示，华硕、戴尔、技嘉、HPE、联想、QCT 和美超微等厂商，将“很快推出”搭载 L40S GPU 的 OVX 服务器系统。

功能强大的通用型 GPU

NVIDIA L40S GPU 可为您提供突破性的多工作负载性能体验。精心设计的 L40S GPU 将强大的 AI 计算性能与出色的图形和媒体加速功能相结合，旨在为新一代数据中心工作负载提供支持。从生成式 AI 和大型语言模型（LLM）推理与训练，到 3D 图形、渲染和视频，都能应对自如。

NVIDIA L40S GPU 规格

GPU 架构	NVIDIA Ada Lovelace 架构
GPU 显存	带错误校验的 48GB GDDR6
显存带宽	864GB/s
互联接口	PCIe 4.0 x16：双向 64 GB/s
基于 NVIDIA Ada Lovelace 架构的 CUDA® Core 核心	18,176
NVIDIA 第三代 RT Core	142
NVIDIA 第四代 Tensor Core	568
RT Core 性能（单位：TFLOPS）	212
FP32（单位：TFLOPS）	91.6
TF32 Tensor Core（单位：TFLOPS）	183 I 366*
Bfloat16 浮点运算性能 Tensor Core（单位：TFLOPS）	362.05 I 733*
FP16 Tensor Core	362.05 I 733*
FP8 Tensor Core	733 I 1,466*
INT8 Tensor TOPS 峰值 INT4 Tensor TOPS 峰值	733 I 1,466* 733 I 1,466*
外形规格	4.4"（高）x 10.5"（长），双插槽
显示端口	4 个 DisplayPort 1.4a
最大功耗	350 瓦
电源接口	16 针
散热	被动
虚拟 GPU（vGPU）软件支持	是
支持的 vGPU 配置文件	请参阅《虚拟 GPU 许可指南》
NVENC I NVDEC	3x I 3x（包含 AV1 编解码）
通过信任根进行安全启动	是
NEBS 支持	3 级
多实例 GPU（MIG）支持	否
NVIDIA® NVLink® 支持	否