【GPU显不足】

最新推荐文章于 2025-02-17 23:08:08 发布

静静喜欢大白

最新推荐文章于 2025-02-17 23:08:08 发布

阅读量2.9k

点赞数 1

分类专栏： # python代码报错

本文链接：https://blog.csdn.net/lj2048/article/details/107803288

版权

python代码报错专栏收录该内容

12 篇文章

订阅专栏

1）在.py文件中设置成自动增加申请的显存（首选）

2）减少batchsize,即减少了GPU内存分配需求

3）换个显存更大的GPU

4）重置输入图片尺寸，即通过减小图片的大小来减少对显存的消耗

5）如果网络中用到了RNN，可以使用swap_memory=True选项以减少其对显存的占用。

3.参考

0.环境配置

#环境
python 3.6
tensorflow-gpu 1.12
#模型
VGG-11 + Residual on Mnist with LR=0.001

1.出现的问题

Allocator (GPU_0_bfc) ran out of memory trying to allocate 1.53GiB.  Current allocation summary follows.

报错原因在于GPU显存不够用了，可以在运行过程通过命令nvidia-smi查看GPU的显存大小（16G）以及利用率（55%），退出用ctrl+C

【具体】

主要关心的参数为Memory-Usage，如下图所示，1块GPU的显存都被极大的占用了，但是GPU-Util（GPU利用率为55），那么说明后台有进程在消耗GPU资源。

命令行输入 fuser -v /dev/nvidia*，就会显示使用GPU的进程；把消耗资源的进程关闭即可：命令行输入 kill 进程号 ，再次显示GPU的使用情况（其实可以根据nvidia-smi显示的最下面那一栏就可以看出占用内存的编号）

查看内存信息使用 free -m（约128G）

注意

最开始前面那一列是GPU相关信息使用的是tesla显卡

中间那一列才是显存利用情况【已分配显存/可用总显存】，显存是16G的

最右边那列是GPU利用率

2.问题分析与解决

2.1问题分析

总的内存是128GiB，远高于1.53GiB。为什么还会报错误呢？因为出现这个问题得时候，一般都是在用GPU跑大型得深度学习的程序，才会导致所需要的GPU内存不足，那这又是怎么回事呢？首先查看一下电脑显存，在终端输入nvidia-smi，看到如上界面：看到一块GPU的显存是15109MiB(约为16GiB)，问题又来了，显存也比需要的1.53GiB大呀，怎么会提示这样的错误呢？网上查查主要有如下解决方法：

2.2解决方法

1）在.py文件中设置成自动增加申请的显存（首选）

如果没有设置允许tensorflow根据需要自动增加申请的显存，可以先尝试这个，看看用上单个GPU的所有显存能否解决。设置自动增长的代码见

py文件添加
os.environ['CUDA_VISIBLE_DEVICES']='5,6,7'
#其中当allow_soft_placement参数设置为True时，如果运算无法由GPU执行，那么TensorFlow会自动将它放到CPU上执行。
config = tf.ConfigProto(allow_soft_placement=True)
#另外可以在session这一块进行显存分配
config.gpu_options.allow_growth = True
session = tf.Session(config=config)


运行时多指定两个参数
#--num_clones：指定GPU 卡的数量。
#--ps_tasks：指定参数伺服器的数量。
python xx.py --num_clones=3  --ps_tasks=1