如今,AI 的火热程度已经不需要解释。算力、算法、数据,构成驱动 AI 技术快速发展的三驾马车:
- 算力越强,越能够处理更加复杂的训练模型,并加速训练进程;
- 算法越先进,越能高效的从数据中学习并优化模型,实现更加精准的智能决策与预测;
- 数据越充分,模型的泛化能力越强,而随着新的数据不断被注入,模型也将实现不断迭代,越发好用且智能。
完整的 AI 训练包括数据收集、数据预处理、数据标注、数据分割、模型设计、模型搭建、模型训练、模型评估、模型调优,最终部署等环节。GPU 作为整个模型训练的算力核心,因其成本高昂,系统架构和参数设置应以最大发挥 GPU 的使用频率为目标。
模型训练阶段,SSD 通常用于提供 GPU 所需的样本数据,并对 GPU 训练产生的中间结果、日志、临时文件等加以保存。随着数据量的爆炸式增长,高效的数据摄取和处理成为一项重大挑战。为探究 SSD 对模型训练带来的影响,本文将通过 DLIO Benchmark 测试软件进行验证。
由于本文篇幅较长,为方便阅读,这里先放结论:
- 数据加载环节,NVMe SSD 可以做到满载运行,以最大发挥 GPU 性能;
- 单片 PBlaze7 7940 PCIe 5.0 SSD 可以在吞吐量较高的模型训练任务中,为多颗 GPU 配置带来优秀的 I/O 传输带宽,性能领先 PCIe 4.0 SSD 达 81%;
- 在本次测试中,单片 PBlaze7 7940 PCIe 5.0 SSD 可以让最多8颗 GPU 始终保持90%以上利用率;
- 相比 PCIe 4.0 SSD,单片 PBlaze7 7940 PCIe 5.0 SSD 可以让训练环节减少耗时 1,000秒;
- GPU 性能越强,部署数量越多,越需要更强的 SSD 和系统内存加以满足。
以下是测试详情。
DLIO Benchmark 介绍
DLIO Benchmark 是行业里非常有名的,针对深度学习应用负载的 I/O 性能检测工具。它通过精确模拟训练过程中的 I/O 行为,帮助开发人员快速找到系统架构中的 I/O 瓶颈,并指导优化训练性能。