实测！高性能PCIe 5.0 SSD为AI训练贡献了啥？

Memblaze_2011

于 2024-07-22 10:02:35 发布

阅读量1.1k

点赞数 13

文章标签：人工智能 NVMe pytorch

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Memblaze_2011/article/details/140600696

版权

如今，AI 的火热程度已经不需要解释。算力、算法、数据，构成驱动 AI 技术快速发展的三驾马车：

算力越强，越能够处理更加复杂的训练模型，并加速训练进程；
算法越先进，越能高效的从数据中学习并优化模型，实现更加精准的智能决策与预测；
数据越充分，模型的泛化能力越强，而随着新的数据不断被注入，模型也将实现不断迭代，越发好用且智能。

完整的 AI 训练包括数据收集、数据预处理、数据标注、数据分割、模型设计、模型搭建、模型训练、模型评估、模型调优，最终部署等环节。GPU 作为整个模型训练的算力核心，因其成本高昂，系统架构和参数设置应以最大发挥 GPU 的使用频率为目标。

模型训练阶段，SSD 通常用于提供 GPU 所需的样本数据，并对 GPU 训练产生的中间结果、日志、临时文件等加以保存。随着数据量的爆炸式增长，高效的数据摄取和处理成为一项重大挑战。为探究 SSD 对模型训练带来的影响，本文将通过 DLIO Benchmark 测试软件进行验证。

由于本文篇幅较长，为方便阅读，这里先放结论：

数据加载环节，NVMe SSD 可以做到满载运行，以最大发挥 GPU 性能；
单片 PBlaze7 7940 PCIe 5.0 SSD 可以在吞吐量较高的模型训练任务中，为多颗 GPU 配置带来优秀的 I/O 传输带宽，性能领先 PCIe 4.0 SSD 达 81%；
在本次测试中，单片 PBlaze7 7940 PCIe 5.0 SSD 可以让最多8颗 GPU 始终保持90%以上利用率；
相比 PCIe 4.0 SSD，单片 PBlaze7 7940 PCIe 5.0 SSD 可以让训练环节减少耗时 1,000秒；
GPU 性能越强，部署数量越多，越需要更强的 SSD 和系统内存加以满足。

以下是测试详情。

DLIO Benchmark 介绍

DLIO Benchmark 是行业里非常有名的，针对深度学习应用负载的 I/O 性能检测工具。它通过精确模拟训练过程中的 I/O 行为，帮助开发人员快速找到系统架构中的 I/O 瓶颈，并指导优化训练性能。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。