基于全国产PCIE SWITCH 4.0/5.0的AI服务器PCIe拓扑应用研究 (一)

1 引言
为满足大数据 云计算和人工智能等领域的数
据收集与处理需求 , 采用各种异构形式的 AI 服务
器得到了广泛应用 。CPU+GPU AI 服务器中
普遍使用的计算单元组合 [1] 其中 ,P2P(Peerto
Peer) 通信用于多 GPU 系统中 , 借助缓存设备 ,
以有效利 用 PCIe 资 源 进 行 GPU 之 间 的 数 据 交
[2]
针对 GPU 加速应用 , 业内已有面向多种软件
工具 硬件配置和算法优化的研究 。2016 ,Shi
等人 [3] 通过性能基准测试 , 比较了 GPU 加速深度
学习 的 软 件 工 具 (Caffe、CNTK、TensorFlow
Torch );2018 ,Xu 等人 [4] 通过对软件和硬件
配置的组合研究 , 得到不同开源深度学习框架的应
用特性和功能 , 进一步量化了硬件属性对深度学习
工作 负 载 的 影 响 ;2019 ,Farshchi 等 人 [5] 使 用
FireSim 将 开 源 深 度 神 经 网 络 加 速 器 NVDLA
(NVIDIA Deep Learning Accelerator) 集 成 到
AmazonCloudFPGA 上的 RISC-VSoC , 通过
运行 YOLOv3 目标检测算法来评估 NVDLA 的性
但是 , 基于 CPU+GPU 架构 , 针对 AI 服务器
在各应用场景中的分析却鲜有研究
本文主要对 AI 服务器中 3 种典型的 PCIe
Balance Mode、Common Mode Cascade
Mode 的应用场景进行研究 , 旨在通过对 3 种拓扑
的点对点带宽与延迟 双精度浮点运算性能和深度
学习推理性能分析 , 得到 3 种拓扑在各应用场景中
的优势和劣势 , AI 服务器的实际应用提供优选
配置指导
2 典型拓扑结构
2.1 3 种基础拓扑结构
(1)BalanceMode。
BalanceMode 拓扑为 Dualroot, 根据 PCIe
源将 GPU 平 均 分 配 到 各 个 CPU, 同 一 个 PCIe
Switch 下的 GPU 可以实现 P2P 通信 , 不同 CPU
下挂接的 GPU 需要跨超级通道互联 UPI(Ultra
PathInterconnect) 才能通信 8 GPU 卡为
,BalanceMode 拓扑结构如图 1 所示
(2)CommonMode。
CommonMode 拓扑中 GPU PCIe 资源均
来自同一个 CPU, 同一个 PCIeSwitch 下的 GPU
可以实现 P2P 通信 , 不同 PCIeSwitch 下挂接的
GPU 需要跨 CPU PCIeRootPort 才能实现 P2P
通信 , 但通信带宽 低 于 同 一 个 PCIeSwitch 下 的
P2P 通信 8 GPU 卡为例 ,Common Mode
拓扑结构如图 2 所示
(3)CascadeMode。
CascadeMode 拓扑中 GPU PCIe 资源均来
自同一个 CPUPCIeRootPort,PCIeSwitch 之间
为级联拓扑 , 同一级 PCIeSwitch 下的 GPU 可以
实现 P2P 通信 , 1 PCIeSwitch 下的 GPU
2 PCIeSwitch 下的 GPU 之间可以实现 P2P
通信 , 不需要通过 CPU PCIeRootPort。 8
GPU 卡为 例 ,Cascade Mode 拓 扑 结 构 如 图 3

全国产PCIE4.0/5.0 SWITCH NVMe 混合直连背板

*硬盘热插拔功能;
*灯态支持硬盘上电,读写,报错;
*SPGIO硬盘报错功能;
*硬盘分时启动;
*风扇温度控制;
* I2C(BMC);

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值