GPU利用率偏低怎么办？神经网络训练速度太慢怎么办？

最新推荐文章于 2024-04-24 10:45:17 发布

lemon220728

最新推荐文章于 2024-04-24 10:45:17 发布

阅读量1.5k

点赞数 10

文章标签：深度学习计算机视觉目标检测视觉检测人工智能神经网络机器学习

本文链接：https://blog.csdn.net/weixin_41602070/article/details/136422224

版权

本文分析了深度学习训练中GPU利用率偏低的原因，主要集中在数据加载和预处理阶段。提出了解决方案，包括合理设置torch.dataloader的num_worker数，使用lmdb数据格式加速数据读取，以及考虑在GPU上进行数据预处理，如使用nvidia-dali库。

摘要由CSDN通过智能技术生成

在我们深度学习算法训练中最长出现的就是 GPU利用率偏低，甚至经常出现 nvidia-smi一打开，GPU利用率为0%，隔很久才跳动一次，这究竟是为什么呢？有什么解决办法吗？笔者为你一一揭晓答案！

通常的训练流程

图片数据在磁盘上
CPU把数据从磁盘加载到内存里，注意这里是CPU（不是GPU）把数据加载到内存（不是显存），所以这时候图片数据在内存里。
CPU对数据进行预处理。
数据又内存转移到显存。
GPU对数据进行模型前向推理。
GPU计算loss。
GPU对模型进行反向传播，并更新权重。
这是一个完整的训练流程， 步骤2加载数据和步骤3数据预处理在CPU上执行，步骤4、5、6都在GPU上执行。GPU利用率较低，说明流程卡在了步骤2数据加载或步骤3预处理阶段，GPU一直在等CPU加载预处理数据，处于闲置状态，所以GPU利用率为0，偶尔等CPU加载预处理好，GPU执行一次，所以会出现GPU利用率为0%，隔很久才跳动一次这个现象。

通常问题就是出在数据加载或预处理阶段。
如果我们用 torch.dataloader() API，一定要设置合理的num_worker数，如果你的训练机器是 72核CPU、8个GPU，那个合理的num_worker数为9（72/8）, 也就是一个worker数对应一个数据加载预处理thread，每个thread尽量分配一个CPU核。优先这样调试下，看训练速度是否能缓解。
如果1没用缓解，我们就详细分析一下各种数据格式数据的加载速度。
普通图片加载、lmdb数据格式加载、tfrecord数据格式加载。
这里面推荐把数据做成用lmdb格式，这样读取数据的速度会加快，但无论哪种数据格式数据预处理仍在CPU上进行。尝试下，训练速度是否能缓解。
如果2仍然没有缓解，说明问题可能出在步骤3数据预处理阶段，那我们尝试下将 数据预处理步骤在GPU上执行，这里推荐用nvidia的dali库, 具体实现参照官网例子，可以将数据预处理这部分挪到GPU上进行。