基于国产PCIE4.0/5.0 SWITCH 的AI服务器PCIe拓扑及PCIe5.0 Retimer 卡应用研究(三)

HPL 性能分析
HPL(HighPerformanceLinpack) 测 试 可 以
表征 3 种拓扑在双精度浮点运算中的表现 。Bal
anceMode、CommonMode CascadeMode3
拓扑的 HPL 性能测试结果如表 3 所示
为清晰表征 3 种拓扑在 HPL 性能测试中的
表现差异 , BalanceMode 的测试分数为基准 ,
Common Mode Cascade Mode2 种 拓 扑
HPL 性能测试分数对 BalanceMode 分数的占比 ,
如图 6 所示
HPL 测试 需 要 使 用 处 理 器 与 主 内 存 , 由 于
Dualroot 的拓扑上行带宽和内存使用率提升 ,
能将会优于 Singleroot 的拓扑 , Balance Mode
CommonMode HPL 测试中的分数会高于
CascadeMode 另外 ,Balance Mode 结构将 8
GPU 平均挂载在 2 CPU , 可以利用 2
CPU 及内存的资源来完成浮点运算 ; Common
C M P o U de 间 中 的 , U PI 所 连 有 接 G P U 够 都 快 挂 , CP U C PU 0 单 下 条 , UP I
连接速度高达 10.4GT/s, 同时运行 8 GPU
浮点运算时 , 可以通过 UPI 来与 CPU1 通信 , 且共
享内存 故整体而言 ,BalanceMode HPL 性能
会略高于 CommonMode
3.2.3
深度学习性能分析
深度学习 DL(DeepLearning) 通过多个处理
层构成的计算模型进行图像 视频和音频等的处理
和识别 [6] , 常用模型有自动编码机 受限玻尔兹曼
深度神经网络 卷积神经网络和循环神经网络
, 其中卷积神经网络 [7] 在图像处理方面应用较为
广泛 , 如图 7 所示
Figure7 Imageprocessingusingconvolutionalneuralnetwork
7 卷积神经网络处理图像
2017 年 的 GPU 技 术 大 会 (GTC) ,
NVIDIA 发布了基于 volta V100GPU。V100
GPU 是第 1 个包含 张量核心 NVIDIA GPU,
这是 4×4 矩阵乘法操作设计的核心 , 是深度学习
模型的主要部分 [8]
深度学 习 训 练 模 型 主 要 使 用 2 种 分 布 策
——— 数据并行型和模型并行型 [9] , 本文实验采用
数据并行型策略 对于数据并行 , 每个 GPU 都有
一个深度学习模型的完整副本 每个 GPU 接收
数据 的 不 同 部 分 进 行 训 练 , 然 后 将 其 参 数 通 过
RingAll-Reduce 的方式更新到所有 GPU, 以便与
所有 GPU 共享其训练输出 如图 8 所示 , Bal
anceMode 为例 , 在运行数据并行的深度学习训练
模型时 , 当多台机器运行时 ,GPU 的通信流通过
IB(InfiniBand) 卡实现机器之间的信息传递 ; 当单
台机 器 运 行 时 , 基 于 NCCL(NVIDIA Collective
CommunicationsLibrary) 通信库 ,8 GPU 卡的
信息传递构成环形通信流 GPU 之间的通信
带宽相比 , 减小的 CPU GPU 之间的通信带宽
会影响 GPU 获取数据集所需要的时间 , 即完成一
Batchsize 所需的时间
Figure8 Dataparallelcommunication
modeforBalancemode
8 Balance 模式数据并行的通信模式
深度学习训练模型种类繁多 , 不同模型有不同
的优势 , 可以应用于各类实际应用场景 如图 9
,ResNet 计算模型借鉴了 HighwayNetwork
, 利用残差网络构建 , 其优化的目标为输出和输
2017 年 的 GPU 技 术 大 会 (GTC) ,
NVIDIA 发布了基于 volta V100GPU。V100
GPU 是第 1 个包含 张量核心 NVIDIA GPU,
这是 4×4 矩阵乘法操作设计的核心 , 是深度学习
模型的主要部分 [8]
深度学 习 训 练 模 型 主 要 使 用 2 种 分 布 策
——— 数据并行型和模型并行型 [9] , 本文实验采用
数据并行型策略 对于数据并行 , 每个 GPU 都有
一个深度学习模型的完整副本 每个 GPU 接收
数据 的 不 同 部 分 进 行 训 练 , 然 后 将 其 参 数 通 过
RingAll-Reduce 的方式更新到所有 GPU, 以便与
所有 GPU 共享其训练输出 如图 8 所示 , Bal
anceMode 为例 , 在运行数据并行的深度学习训练
模型时 , 当多台机器运行时 ,GPU 的通信流通过
IB(InfiniBand) 卡实现机器之间的信息传递 ; 当单
台机 器 运 行 时 , 基 于 NCCL(NVIDIA Collective
CommunicationsLibrary) 通信库 ,8 GPU 卡的
信息传递构成环形通信流 GPU 之间的通信
带宽相比 , 减小的 CPU GPU 之间的通信带宽
会影响 GPU 获取数据集所需要的时间 , 即完成一
Batchsize 所需的时间
=================PCIe5.0 Retimer 卡==============
*消除确定性抖动与随机抖动
*Tx/Rx 按通道性能可调
* 2*MICROx8接口
*支持热插拔
* 低功耗,低延时
*符合PCIe5.0基本规范.

功能特性


· 高性能 32GT/s SerDeS ;
·2*MICROx8接口;
· Tx/Rx 按通道性能可调;
· 支持通道极性翻转;
·支持热插拔;
·低功耗,低延时;
·符合PCIe5.0基本规范;


☑支持OEM/ODM定制服务

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值