基于国产PCIE4.0/5.0 SWITCH 的AI服务器PCIe拓扑及12Gb SAS Expander多盘位背板应用研究(二)

2.2 拓扑特性分析
BalanceMode 的配置将 GPU 平均挂接 在 2
CPU ,GPU PCIe 总的上行带宽较高 ;Com
monMode 在一定程度上能够满足 GPU 之间点对
点的通信 , 同时可保障足够的 CPU GPU 之间
I/O 带宽 ;Cascade Mode 只有一条 ×16 链路 ,
但由于 GPU 之间通过 PCIeSwitch 串接 , 提升了
点对点的性能 , 降低了延迟
对于双精度浮点运算 , GPU 计算需要使用
处理器与主内存 , 由于 Dualroot 的拓扑上行带宽
与内存使用率提升 , 其性能会优于 Singleroot
拓扑
对于深度学习推理性能来说 , 具备并行计算能
力的 GPU 可以基于训练过的网络进行数十亿次
的计算 , 从而快速识别出已知的模式或目标 不同
拓扑下 GPU 的互联关系不同 ,GPU 之间的沟通会
影响深度学习推理的整体性能
3 实验及结果分析
3.1 实验装置
为探究在不同应用条件下 3种拓扑的性能差
, 实验使用自研 AI 服务器 (NF5468M5) 搭建机
台进行测试 装置使用 2 CPU, 规格为 IntelⓇ
XeonⓇ Gold6142, 主频为 2.60GHz; 使用 12
DDR4 内存 , 容量为 32GB, 主频为 2666 MHz; 使
8 GPU, 规格为 NVIDIA Tesla-V100_32G。
3.2
实验结果分析
3.2.1
点对点带宽与延迟
对于 GPU P2P 性能 , 可以使用带宽与延迟
来衡量 。PCIe3.0 的带宽为 16GB/s, 理想状况
, 实际应用中带宽可以达到理论带宽的 80%
。PCIe 的延迟主要取决于 PCIeTrace 的长度
走线路径 上 的 器 件 及 是 否 经 过 UPI、 是 否 跨 RC
(RootComplex)
如图 4 所示 , BalanceMode、CascadeMode
CommonMode3 种拓扑中 , 分别测试挂在同一
PCIeSwitch 下的 GPU ( 如图 4 中线路 ①) 和跨
PCIeSwitch GPU( 如图 4 中线路 ②) 的点对点
带宽与延迟 测试结果如表 1、 2 及图 5 所示
在同一个 PCIeSwitch , 由于 GPU 之间的
传输距离是一样的 , 所以在点对点回路 ,3
拓扑的带宽与延迟结果皆相近 ; 对于跨 PCIeSwitc
2 GPU, 由于 CPU 间为 3UPILinks, 其信号
传输速度足够快 , 所以 BalanceMode Common
Mode 的 结 果 相 近 , 而 对 于 Cascade Mode, 由 于
GPU 之间的沟通只需经过 PCIeSwitch, 传输路径
变短 , 其点对点延迟性能得以提升 ; 同时 , 对于 In
telCPU 而言 , 一个 PCIe×16Port 为一个 RC,
RC 之 间 的 通 信 带 宽 比 同 一 个 RC PCIe
Switch 之间的通信差 , CascadeMode 的带宽也
得以提升
=========12Gb SAS Expander多盘位背板================
*硬盘热插拔功能;
*灯态支持硬盘上电,读写,报错;
*SPGIO硬盘报错功能;
*硬盘分时启动;
*风扇温度控制;
* I2C(BMC);
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值