记录下跑深度学习遇到的问题：模型跑的很慢，GPU利用率低

最新推荐文章于 2024-03-07 11:23:19 发布

qq_40874927

最新推荐文章于 2024-03-07 11:23:19 发布

阅读量4.1k

点赞数 2

文章标签：人工智能 python 开发语言深度学习

本文链接：https://blog.csdn.net/qq_40874927/article/details/128204394

版权

在kaggle上跑，模型仿照CLIP（ResNet50+transfomer），框架用的pytorch，加速器用的GPU P100，半精度训练，batchsize = 300

数据集：100+类别，每类900个样本，每个样本长度2048，int64，csv格式

跑的过程中，一个epoch 20m 左右

第一个epoch：CPU使用率40%左右，RAM在90%，GPU波动很大一会爆满一会是0

第二个epoch：CPU使用率80%左右，RAM在90%，GPU波动也很大，但是爆满时间比例

变的更大了

第三个epoch：CPU使用率90%左右，RAM在90%，GPU同二

后面几个epoch：和第三个epoch一样

现在还在等着模型跑完

考虑到以下几点原因：

1. 数据读取花费时间过长

2. 预处理没有放到GPU上

3. batchsize还是太小

看见有大佬写的，可以减少日志IO操作频率，或者使用pin_memory和num_workers，待会试试

（微调CLIP的时候用的图片集只有几百张，那时候速度也还能接受，这次数据应该是太大了，还是继续优化吧，先把GPU利用率提高起来）

萌新第一次正经跑模型，记录些遇到的问题，如果有大佬能指点一二，不胜感激

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

qq_40874927

关注关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

强化学习技巧四：模型训练速度过慢、GPU利用率较低，CPU利用率很低问题总结与分析。

丨汀、的博客

07-09

1万+

1.PyTorchGPU利用率较低问题原因：在服务器端或者本地pc端，输入nvidia-smi 来观察显卡的GPU内存占用率（Memory-Usage），显卡的GPU利用率（GPU-util），然后采用top来查看CPU的线程数（PID数）和利用率（%CPU） 1.1 GPU内存占用率问题这是由于模型的大小以及batch size的大小，来影响这个指标。 GPU的内存占用率主要是模型的大小，包括网络的宽度，深度，参数量，中间每一层的缓存，都会在内存中开辟空间来进行保存，所以模型本身会占

深度学习知识点全面总结

最新发布

qq_61768843的博客

03-07

2460

小白深度学习的入门经历

深度学习PyTorch，TensorFlow中GPU利用率较低，CPU利用率很低，且模型训练速度很慢的问题总结与分析

anshiquanshu的专栏

01-18

1万+

在深度学习模型训练过程中，在服务器端或者本地pc端，输入nvidia-smi来观察显卡的GPU内存占用率（Memory-Usage），显卡的GPU利用率（GPU-util），然后采用top来查看CPU的线程数（PID数）和利用率（%CPU）。往往会发现很多问题，比如，GPU内存占用率低，显卡利用率低，CPU百分比低等等。接下来仔细分析这些问题和处理办法。 1. GPU内存占用率问题这往往是由于模型的大小以及batch size的大小，来影响这个指标。当你发下你的GPU占用率很小的时候...

深度学习程序占用GPU显存，但计算利用率低的可能原因

weixin_42649288的博客

08-08

958

nvidia-smi查看GPU情况明明显存和使用率充足，但运行代码后计算利用率（GPU-Util）始终很低。网上查了很多资料说是CPU读写操作太多，但排查后发现主要时间用在模型的前向传播过程。但watch nvidia-smi又发现只有短时间GPU计算利用率不是0%。最后顺手kill掉一些占用GPU的程序，把显存都释放了，发现可以正常运行了，记录下提醒自己及时kill掉因为ctrl+c未及时释放GPU的程序。显存余量越多代码算得越快，太少了会把程序卡死，不过好像算是计组的常识。

深度学习模型预测时间很慢

qiuzitao的博客

03-04

8589

在做深度学习任务时，我是做图像目标检测，用tensorflow或者keras或者pytorch训练完模型，然后就是做预测，发现无论是用GPU还是CPU都非常慢，然后百度了好久都没有解决问题。无论是不是配置低，如果我们要做成品，一定要部署。我每个函数都去用time.time()去计算耗时，最后发现调用模型的时候耗时最多，也是罪魁祸首。无论你是调用ssd或者yolo模型，在这里的调用都非常耗时。系统有初始化，每次你去预测一张图片，系统都要重新调用一次模型，初始化一次模型，加载一次模型，这样就很慢了，我们

深度学习学习——提升GPU的利用率（Volatile GPU-Util）

m0_37876745的博客

09-24

1960

除去网上介绍的那些方法，如测试一个合适的num_worker，或者设置pin_memory为true以外，还有一些方法，比如这里有几个工具是专门用来测试GPU的使用情况的，如pytorch下的工具包 TORCH.UTILS.BOTTLENECK 还有英伟达官方提供的一个工具包： PyProf 除此之外，pytorch的另一个工具： PyTorch Profiler 也可以来做这个事情 ...

(14)关于PyTorch训练深度学习模型CPU/GPU使用率低，训练速度慢这一问题的总结

weixin_40227656的博客

08-16

1万+

电脑配置双2080Ti+i7-10700K，使用mobilenet-yolov4-lite训练VOC数据集时，训练100epochs要五六个小时，检测cpu和gpu的使用发现利用率都很低，说明没有充分使用电脑优秀的性能，两个显卡的使用率都分别只有20%-50%，查阅一些资料总结如下：１、参考：【深度学习】踩坑日记：模型训练速度过慢，GPU利用率低上面作者指出四个提速技巧：减少日志IO操作频率使用pin_memory和num_workers 使用半精度训练更好的显卡，更轻的模型其中，第

深度学习模型GPU利用率很低

10-20

深度学习模型GPU利用率低可能有多种原因，以下是一些可能的原因和处理方法： 1. 数据加载速度慢：可以通过增加num_workers参数和调整batch size来优化数据加载速度。 2. 模型设计不合理：可能需要重新设计模型，或者...

从零实现深度学习框架——利用GPU加速(一)

日积月累，天道酬勤

05-18

2364

如何利用GPU加速训练过程

linux 跑深度学习指南_不完整的深度学习指南

cumian9828的博客

07-28

1483

linux 跑深度学习指南From Self-Driving Cars to Alpha Go to Language Translation, Deep Learning seems to be everywhere nowadays. While the debate whether the hype is justified or not continues, Deep Learning h...

研一小白记录第一次在实验室服务器上跑深度学习的代码全过程（实验室服务器上跑代码详细全过程哦）

m0_73524607的博客

11-26

2万+

在犹豫和观摩了好久之后终于决定自己在实验室服务器上跑一次代码，因为自己是完全没有概念，所以搜了很多很多，有时候一口气打开二三十个搜索框才找到自己想要的答案，但是也很零散，所以决定记录一个自己从申请服务器账号到代码成功跑起来的全过程，见证成长同时希望帮助到你！

使用学校的服务器跑深度学习

zzqingyun的博客

12-02

4900

为 Secure Shell 的缩写，是目前较可靠，专为远程登录会话和其他网络服务提供安全性的协议。利用 SSH 协议可以有效防止远程管理过程中的信息泄露问题。我们做计算的人，每天都需要与linux服务器打交道，有很多人直接使用linux系统，比如ubuntu和centos等。但是也有很多人不喜欢linux系统，虽然它对于做计算很方便，但是对于日常办公软件的支持极差，比如QQ、微信、office等。这个时候。

低成本攒机跑深度学习AI

weixin_43934886的博客

04-13

1万+

概述如何机子攒一台配置不错价格不高的深度学习丐版服务器

Tensorflow模型GPU使用率低的问题

YEnh的唐伯虎的博客

10-05

3813

Tensorflow模型GPU使用率低的问题和分析

深度学习怎么跑代码？

gu1857035894的博客

06-14

4039

深度学习怎么跑代码？从事深度学习的研究者都知道，深度学习代码需要设计海量的数据，需要很大很大很大的计算量，以至于CPU算不过来，需要通过GPU帮忙，今天怎么教大家免费使用GPU跑深度学习代码。深度学习怎么跑代码？Colabortory是一个jupyter notebook环境，它支持python2和python3，还包括TPU和GPU加速，该软件与Google云盘硬盘集成，用户可以轻松共享项目或将其他共享项目复制到自己的帐户中。Colaboratory使用步骤1、登录谷歌云盘https://drive.go

为什么我在gpu上训练模型但是gpu利用率为0且运行速度还是很慢？

studyvcmfc的专栏

08-23

3452

https://ask.csdn.net/questions/767461

Tensorflow使用训练好的模型进行测试，发现计算速度越来越慢

weixin_34239169的博客

05-09

2644

实验时要对多个NN模型进行对比，依次加载直到第8个模型时，发现运行速度明显变慢而且电脑开始卡顿，查看内存占用90+%。原因：使用过的NN模型还会保存在内存，继续加载一方面使新模型加载特别特别慢，另一方面是模型计算速度也会下降很多。解决方法：加载新模型之前把旧的模型撤掉： tf.reset_default_graph() reset后加载和计算速度明显提升，亲测有效参考： ...