NVIDIA最新发布L40S通用GPU, 为数据中心赋予出色的 AI 和图形性能

 

2023年8月,英伟达日前发布了全新的 NVIDIA L40S GPU,以及搭载该 GPU 的 OVX 服务器系统,这款计算加速显卡可以用于图形渲染、人工智能大模型训练和推理、三维设计和视频处理等用途,AI 运算性能高于 A100 GPU。由于这款加速卡不支持 NVLink,且没有选择采用 HBM 显存,而是采用 GDDR6 ECC 显存,因此 L40S 相比 A100、H100 更加适用于边缘运算。

据悉,这款 L40S GPU 搭配最新发布的 OVX 服务器,可适用于 AI 大模型训练和推理、三维设计、可视化、视频处理、工业数字化等多种用途,相比 A100 GPU,这套“相得益彰”的 L40S 系统能够“增强生成式 AI、图形和视频处理能力,并满足不断增长的算力需求”

L40S GPU 是英伟达此前 L40 GPU 的升级版本,配备 48GB GDDR6 ECC 显存,该 GPU 基于 Ada Lovelace 架构,搭载第四代 Tensor Core 和 FP8 转换引擎,运算速度是上一代的 5 倍。但依然不支持 NVLink

英伟达声称,L40S 的生成式 AI 推理性能比 A100 高 1.2 倍,训练性能高 1.7 倍,英伟达表示,对于“具有数十亿个参数和多种数据模式的复杂 AI 工作而言”,L40S 的效能更加突出。

英伟达表示,英伟达 L40S GPU 将在今年秋季上市,每台英伟达 OVX 服务器系统最多可搭载 8 个 L40S 加速卡,不过英伟达并没有透露该 GPU 的定价。

英伟达同时表示,华硕、戴尔、技嘉、HPE、联想、QCT 和美超微等厂商,将“很快推出”搭载 L40S GPU 的 OVX 服务器系统。

功能强大的通用型 GPU

NVIDIA L40S GPU 可为您提供突破性的多工作负载性能体验。 精心设计的 L40S GPU 将强大的 AI 计算性能与出色的图形和媒体加速功能相结合,旨在为新一代数据中心工作负载提供支持。从生成式 AI 和大型语言模型(LLM)推理与训练,到 3D 图形、渲染和视频,都能应对自如。

NVIDIA L40S GPU 规格

GPU 架构NVIDIA Ada Lovelace 架构
GPU 显存带错误校验的 48GB GDDR6
显存带宽864GB/s
互联接口PCIe 4.0 x16:双向 64 GB/s
基于 NVIDIA Ada Lovelace 架构的 CUDA® Core 核心18,176
NVIDIA 第三代 RT Core142
NVIDIA 第四代 Tensor Core568
RT Core 性能(单位:TFLOPS)212
FP32(单位:TFLOPS)91.6
TF32 Tensor Core(单位:TFLOPS)183 I 366*
Bfloat16 浮点运算性能 Tensor Core(单位:TFLOPS)362.05 I 733*
FP16 Tensor Core362.05 I 733*
FP8 Tensor Core733 I 1,466*
INT8 Tensor TOPS 峰值
INT4 Tensor TOPS 峰值
733 I 1,466*
733 I 1,466*
外形规格4.4"(高)x 10.5"(长),双插槽
显示端口4 个 DisplayPort 1.4a
最大功耗350 瓦
电源接口16 针
散热被动
虚拟 GPU(vGPU)软件支持
支持的 vGPU 配置文件请参阅《虚拟 GPU 许可指南》
NVENC I NVDEC3x I 3x(包含 AV1 编解码)
通过信任根进行安全启动
NEBS 支持3 级
多实例 GPU(MIG)支持
NVIDIA® NVLink® 支持

多年来一直专注于科学计算服务器,入围政采平台,H100、A100、H800、A800、RTX6000 Ada单台双路192核心服务器有售。

### NVIDIA L40 A100 的规格与性能差异 #### 显存带宽 对于显存带宽而言,V100拥有最高的表现,不过在L40A100之间,L40提供了更优的显存带宽。这表明尽管不是最高级别,L40依然能在数据传输速率方面超越A100[^2]。 #### CUDA 核心数量 CUDA核心的数量上,L40相比A100有显著增加。更多的CUDA核心意味着并行计算能力更强,在处理大规模并行任务时效率更高。 #### 单精度浮点性能 (FP32) 就单精度浮点运算性能来说,L40同样超过了A100。这意味着当应用程序依赖大量的单精度浮点操作时,L40可能提供更好的执行速度吞吐量。 #### Tensor Core 性能 关于Tensor Cores的支持,L40支持最新的FP8格式,而A100则主要针对FP16其他更低精度的数据类型优化。因此,在涉及深度学习训练尤其是那些可以利用较低精度算术的应用场景下,L40可能会带来更快的速度以及更高的能源效益。 #### 显存容量 两者都具备较大的显存空间,但是具体数值未直接提及;然而,从资料来看,A40L40共享相同的最大显存大小,暗示着这两者在这方面可能是相等或相近的。 综上所述,虽然两款产品均属于高端市场定位,但在某些特定领域如机器学习模型训练或是科学模拟等方面,由于其各自独特的架构设计技术特点,使得它们的表现各有千秋。如果目标应用能够充分利用到这些特性,则可以根据实际需求来挑选最适合的一款GPU设备。 ```python # Python代码用于展示如何获取两个GPU的关键参数对比 gpu_comparison = { "model": ["NVIDIA L40", "NVIDIA A100"], "cuda_cores": [18432, 10896], # 假设值基于描述中的相对关系 "fp32_performance_tflops": [78, 19.5], "tensor_core_performance": ["FP8", "FP16/TF32/BF16"], "memory_bandwidth_gb_per_sec": [933, 1555], } import pandas as pd df = pd.DataFrame(gpu_comparison) print(df.to_markdown(index=False)) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值