深度学习PyTorch，TensorFlow中GPU利用率较低，CPU利用率很低，且模型训练速度很慢的问题总结与分析 Pytorch 并行训练（DP， DDP）的原理和应用

最新推荐文章于 2025-03-24 21:17:48 发布

转载最新推荐文章于 2025-03-24 21:17:48 发布 · 629 阅读

CC 4.0 BY-SA版权

原文链接：https://blog.csdn.net/qq_32998593/article/details/92849585 https://blog.csdn.net/kuweicai/article/details/120516410

文章标签：

#tensorflow #深度学习 #pytorch

本文针对PyTorch及TensorFlow中遇到的GPU利用率低、CPU使用率不足及模型训练缓慢等问题进行深入探讨与分析，并介绍了Pytorch并行训练（DP，DDP）的原理及其实际应用。

深度学习PyTorch，TensorFlow中GPU利用率较低，CPU利用率很低，且模型训练速度很慢的问题总结与分析_是否龍磊磊真的一无所有的博客-CSDN博客

Pytorch 并行训练（DP， DDP）的原理和应用_生命在于折腾！-CSDN博客

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

meng2180

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

训练PyTorch模型时，GPU 利用率低且训练速度慢...如何解决？

**My Coding Family**

04-16

1951

🏆本文收录于《全栈Bug调优(实战版)》专栏，主要记录项目实战过程中所遇到的Bug或因后果及提供真实有效的解决方案，希望能够助你一臂之力，帮你早日登顶实现财富自由🚀；同时，欢迎大家关注&&收藏&&订阅！持续更新中，up！up！up！！备注：部分问题/疑难杂症搜集于互联网。

强化学习技巧四：模型训练速度过慢、GPU利用率较低，CPU利用率很低问题总结与分析。

热门推荐

丨汀、的博客

07-09

1万+

1.PyTorchGPU利用率较低问题原因：在服务器端或者本地pc端，输入nvidia-smi 来观察显卡的GPU内存占用率（Memory-Usage），显卡的GPU利用率（GPU-util），然后采用top来查看CPU的线程数（PID数）和利用率（%CPU） 1.1 GPU内存占用率问题这是由于模型的大小以及batch size的大小，来影响这个指标。 GPU的内存占用率主要是模型的大小，包括网络的宽度，深度，参数量，中间每一层的缓存，都会在内存中开辟空间来进行保存，所以模型本身会占

参与评论您还未登录，请先登录后发表或查看评论

深度学习pytorch训练时候为什么GPU占比很低？

CDA_Happy的博客

12-27

2644

在深度学习领域，GPU的使用几乎是标配。然而，很多初学者在使用PyTorch进行模型训练时，经常会发现GPU的利用率并不高，这让人感到困惑。本文将深入探讨这一现象的原因，并提供一些解决方案，帮助你充分利用GPU资源，提高训练效率。

深度学习pytorch训练时候为什么GPU占比很低

xiamu_CDA的博客

10-24

2256

在深度学习领域，PyTorch 是一个非常受欢迎的框架，因其灵活性和易用性而备受青睐。然而，许多用户在使用 PyTorch 进行模型训练时，经常会遇到一个令人头疼的问题：GPU 占比很低。这不仅影响了训练效率，还可能导致资源浪费。本文将深入探讨这一问题的原因，并提供解决方案。

GPU利用率偏低怎么办？神经网络训练速度太慢怎么办？

weixin_41602070的博客

03-02

2802

在我们深度学习算法训练中最长出现的就是 GPU利用率偏低，甚至经常出现 nvidia-smi一打开，GPU利用率为0%，隔很久才跳动一次，这究竟是为什么呢？笔者为你一一揭晓答案！做到这些，能够解决我们训练中 99%的训练速度慢问题，和 GPU利用率偏低问题。喜欢文章，关注公众号：人工智能私房菜。

深度学习PyTorch，TensorFlow中GPU利用率较低，CPU利用率很低，且模型训练速度很慢的问题总结与分析

lu_linux的博客

05-25

3612

在深度学习模型训练过程中，在服务器端或者本地pc端，输入nvidia-smi来观察显卡的GPU内存占用率（Memory-Usage），显卡的GPU利用率（GPU-util），然后采用top来查看CPU的线程数（PID数）和利用率（%CPU）。往往会发现很多问题，比如，GPU内存占用率低，显卡利用率低，CPU百分比低等等。接下来仔细分析这些问题和处理办法。

(14)关于PyTorch训练深度学习模型CPU/GPU使用率低，训练速度慢这一问题的总结

weixin_40227656的博客

08-16

1万+

电脑配置双2080Ti+i7-10700K，使用mobilenet-yolov4-lite训练VOC数据集时，训练100epochs要五六个小时，检测cpu和gpu的使用发现利用率都很低，说明没有充分使用电脑优秀的性能，两个显卡的使用率都分别只有20%-50%，查阅一些资料总结如下：１、参考：【深度学习】踩坑日记：模型训练速度过慢，GPU利用率低上面作者指出四个提速技巧：减少日志IO操作频率使用pin_memory和num_workers 使用半精度训练更好的显卡，更轻的模型其中，第

深度学习程序占用GPU显存，但计算利用率低的可能原因

weixin_42649288的博客

08-08

1773

nvidia-smi查看GPU情况明明显存和使用率充足，但运行代码后计算利用率（GPU-Util）始终很低。网上查了很多资料说是CPU读写操作太多，但排查后发现主要时间用在模型的前向传播过程。但watch nvidia-smi又发现只有短时间GPU计算利用率不是0%。最后顺手kill掉一些占用GPU的程序，把显存都释放了，发现可以正常运行了，记录下提醒自己及时kill掉因为ctrl+c未及时释放GPU的程序。显存余量越多代码算得越快，太少了会把程序卡死，不过好像算是计组的常识。

用GPU跑深度学习代码，GPU和CPU的利用率都低于10%

weixin_48278908的博客

03-24

676

大矩阵乘法耗时 7.2 秒（正常情况下应该是 1~2 秒以内）nvidia-smi监控到 GPU 利用率始终低于 10%已确认 PyTorch 是，CUDA 和驱动正常说明代码已经在 GPU 上运行，但 GPU 没有真的全力计算。

Tensorflow并行计算：多核(multicore)，多线程(multi-thread)，计算图分割(Graph Partition)

weixin_39506322的博客

07-16

9402

Github下载完整代码：https://github.com/rockingdingo/tensorflow-tutorial/tree/master/mnist 简介利用tensorflow训练深度神经网络模型需要消耗很长时间，因为并行化计算就为提升运行速度提供了重要思路。Tensorflow提供了多种方法来使程序的并行运行，在使用这些方法时需要考虑的问题有：选取的计算设备是CPU还是...

问题抛出-已解决：模型训练速度慢，CPU使用率低。

乄洛尘

03-24

1750

问题描述： ubuntu16.04+AMD3500X+TiTan X，训练模型时，python进程cpu使用率很低，导致GPU没办法很快训练，出现了 GPU利用率从100%到0%之间反复横调，而且是间隔几秒钟的从0到百。 # 动态查看CUDA使用率 watch -n -0.1 nvidia-smi # 动态查看CPU进程 top 原因分析：注意：这里我仔细查看进程，发现python的训练进程竟然神奇的消失了，解决方案： ...

模型训练速度过慢，GPU利用率低

zhenguiqin的博客

07-14

2519

遇到这种情况 ——深度学习 首先检查自己的数据下载部分，是不是出现重复下载。这里的重复下载是指在训练源数据的部分，单独一个函数train(train_loader,target_loader)中存在数据ids与data下载，不要将其放置在真正的循环训练中（因为本人为了容易理解，将其放入循环中了导致程序运行很慢）；其次检查DataLoader中的num_workers=？，我也不清楚为什么这里设置为8，会使程序运行加快。总之，将其内部参数设置为pin_memory=True, num_workers=8。

Tensorflow并行GPU计算

VioletHan7的博客

09-19

4080

Tensorflow使用GPU Tensorflow程序可以通过tf.device函数来指定运行每一个操作的设备，这个设备可以是本地CPU或GPU，也可以是某一台远程服务器。 tf.device函数可以通过设备的名称来指定执行运算的设备。如CPU在tensorflow中的名称为/cpu:0。在默认情况下，即使机器有很多个CPU，tensorflow也不会区分它们，所有的CPU都使用/cpu:0...

GPU 利用率低常见原因分析及优化

数据派THU

07-06

1958

来源：腾讯技术工程 深度学习爱好者本文约2200字，建议阅读5分钟本文分享一些关于减少GPU资源浪费问题的解放方案。最近经常有同学反馈 GPU 利用率低，严重浪费 GPU 资源的问题，经过对一些实例分析后，借着这篇文档和大家分享一下解决方案，希望能对使用 GPU 的同学有些帮助。一、GPU 利用率的定义本文的 GPU 利用率主要指 GPU 在时间片上的利用率，即通过 nvidia-smi 显示...

Tensorflow模型预测时，若用CPU计算，如何设置？并行计算-多核(multicore)，多线程(multi-thread)

郭云飞的专栏

07-05

1万+

在标准系统上通常有多个计算设备. TensorFlow 支持 CPU 和 GPU 这两种设备. 用指定字符串来标识这些设备. 比如: "/cpu:0": 机器中的 CPU "/gpu:0": 机器中的 GPU, 如果你有一个的话. "/gpu:1": 机器中的第二个 GPU, 以此类推... 在Tensorflow程序中，我们会经常看到 with tf.device("/cpu:0"): 这个语...

PyTorch 中模型计算仍然比 CPU 慢的情况,通常有以下几个原因需要检查

weixin_45621026的博客

07-13

1173

在 PyTorch 中模型计算仍然比 CPU 慢的情况,通常有以下几个原因需要检查:

pytorch代码的GPU利用率低

最新发布

04-28

### 提升 PyTorch 训练中的 GPU 使用率的方法在训练过程中遇到 GPU 利用率低的情况可能源于多种原因，以下是几种常见的优化策略及其具体实现方式： #### 1. 增加批量大小 (Batch Size) 较大的批量可以更充分地利用 GPU 的并行处理能力。然而需要注意的是，过大的批量可能会导致显存不足。可以通过逐步增加批量大小来找到最佳平衡点。 ```python train_loader = DataLoader(dataset, batch_size=64, shuffle=True, num_workers=4, pin_memory=True) ``` 增大 `batch_size` 参数有助于提升 GPU 占用率[^1]。 --- #### 2. 启用数据加载器的多线程 (`num_workers`) 通过设置 `DataLoader` 中的 `num_workers` 参数为大于零的值，可以让 CPU 并行预处理数据，从而减少 I/O 瓶颈对 GPU 性能的影响。 ```python train_loader = DataLoader( dataset, batch_size=32, shuffle=True, num_workers=8, # 设置合适的线程数以加速数据读取 pin_memory=True # 数据传输至 GPU 更高效 ) ``` 启用 `pin_memory=True` 可进一步加快主机内存到设备内存的数据传递效率[^3]。 --- #### 3. 减少不必要的同步操作某些情况下，频繁调用 `.item()` 或者将张量从 GPU 移回 CPU 进行调试会引入额外开销。应尽量避免这些操作。 ```python loss_value = loss.item() # 避免过多使用 item() print(f'Loss: {loss_value}') ``` 如果仅需记录日志而不影响性能，则可考虑异步打印或其他替代方案[^2]。 --- #### 4. 调整学习率与优化算法配置有时较低的学习速率可能导致每轮迭代所需时间较长，进而降低整体吞吐量。尝试调整超参数如初始学习率、动量等也可能改善收敛速度以及资源占用情况。 ```python optimizer = torch.optim.Adam(model.parameters(), lr=0.001, betas=(0.9, 0.999)) scheduler = torch.optim.lr_scheduler.StepLR(optimizer, step_size=7, gamma=0.1) for epoch in range(num_epochs): scheduler.step() ... ``` 适当调节学习率调度机制能够帮助更快达到目标精度水平[^2]。 --- #### 5. 混合精度训练 (Mixed Precision Training) 采用 NVIDIA Apex 库或者内置支持混合精度的功能，在保持相同数值稳定性的前提下允许更低位宽运算完成大部分计算工作流，显著减轻显卡负担的同时还能获得更高的执行频率。 ```python from torch.cuda.amp import GradScaler, autocast scaler = GradScaler() for inputs, labels in train_loader: optimizer.zero_grad() with autocast(): outputs = model(inputs) loss = criterion(outputs, labels) scaler.scale(loss).backward() scaler.step(optimizer) scaler.update() ``` 此技术特别适合现代架构下的深度神经网络应用场合[^1]^. --- #### 6. 检查硬件驱动版本兼容性确保安装最新版 CUDA 工具包匹配当前使用的 GPU 设备型号，并验证 cuDNN 是否已正确集成进入环境路径之中。错误组合往往会造成潜在效能折损现象发生。 --- ### 结论综合以上措施后重新评估整个流程表现差异即可有效缓解原有瓶颈问题所在之处。最终实际效果取决于特定场景需求定制化程度高低而定。