深度神经网络训练无法使用GPU

最新推荐文章于 2024-08-03 15:27:35 发布

Wenmin_Yao

最新推荐文章于 2024-08-03 15:27:35 发布

阅读量5.2k

点赞数 1

分类专栏：深度学习

本文链接：https://blog.csdn.net/qq_41597596/article/details/107605114

版权

深度学习专栏收录该内容

14 篇文章 3 订阅

订阅专栏

我发现训练的时长不对劲,所以调GPU使用情况来看.用命令:

watch -n 0.2 nvidia-smi

每隔0.2刷新显示GPU使用情况.发现使用率最低是3%左右,最高也就30%,并且一直大幅变化.这是不符合GPU训练的预期的,再考虑之前训练的速度确实太慢了,所以怀疑是原来一直在用CPU跑模型(我崩溃了).

首先确定GPU是否可见:

from tensorflow.python.client import device_lib
print(device_lib.list_local_devices())

from keras import backend as K
K.tensorflow_backend._get_available_gpus()

输出的内容是CPU,根本没有看到GPU的描述,因此,GPU对我们的代码来说是不可见的.

然后找原因:
有些帖子给出的原因是tensorflow的版本太高,需要降低版本,但是在我印象中,之前用的就是tensorlow1.14.0,是成功运行过的,所以应该不是这个原因.还有人说是tensorflow和tensorflow-gpu的版本冲突,也就是说cpu版本比gpu版本要高,于是自动选择优先运行cpu版本,从而跳过了gpu版本,但是我的两个版本都是1.14.0,所以应该不是这个版本冲突问题.可见,我没有跟上诉两个原因对应上,但是我的问题根源可能也是在于tensorflow的版本上.
最后尝试解决:
(1)找到所有的conda环境:
```
conda info --envs
```
(2)进入我们使用的环境中:
```
source activate name
```
(3)查看conda安装包列表:
```
conda list
```
(4)先卸载所有tensorflow相关的安装包:
```
pip uninstall xx
```
这里的卸载和后面的安装我用的全是pip,一是后来结果是可行的;二是conda命令一直出现solving environment卡住不动的问题.
(5)安装新的所需安装包:
```
pip install tensorflow-gpu==1.12.0
```
由于我不确定是版本过高的问题,还是cpu和gpu版本冲突问题.那么我的选择是全都不要,两个都不粘.仅安装较低的gpu版本,不用装cpu版本.
(6)验证:
重新运行GPU查看代码,发现可见.跑网络代码的时候观察gpu,第一块的使用率已经达到了90%多,问题解决.