在训练模型时如何指定具体哪一（多）块GPU显卡进行训练任务

最新推荐文章于 2024-04-30 16:05:05 发布

大西瓜不甜

最新推荐文章于 2024-04-30 16:05:05 发布

阅读量7.6k

点赞数 2

分类专栏： python

原文链接：https://blog.csdn.net/qq_38451119/article/details/81065675

版权

python 专栏收录该内容

97 篇文章 1 订阅

订阅专栏

在用tensorflow深度学习模型训练时，假设我们在训练之前没有指定具体用哪一块GPU进行训练，则默认的是选用第0块GPU来训练我们的模型。如果你的电脑有多块GPU的话，其它几块GPU的也会显示被占用。

有些时候，我们希望可以通过自己指定一块或者几块GPU来训练我们的模型，而不是用这种系统默认的方法。接下来将介绍三种指定GPU训练的方法。

我们现有的GPU个数如下所示：

1.在python代码中通过tf.device()函数来指定训练时所要使用的GPU：

假设我们要用我们的第“1”块（注意，这里是以第“0”块为开始，第“1”块其实应该是第二块了）GPU来训练模型，此时可以通过下面的代码来指定：

tf.device('/gpu:1')

实验效果如下：

这里用AI_Challenger场景分类的baseline模型测试一下：

在python脚本代码里的最开头加上：

tf.device('/gpu:1')

在终端运行脚本：

我们可以看到，这样指定GPU还是有一点毛病的。

虽然指定了第“1“块GPU来训练，但是其它几个GPU也还是被占用，只是模型训练的时候，是在第1块GPU上进行。

所以，我们使用下面的第2、3种方法。

2.在python代码中通过CUDA_VISIBLE_DEVICES来指定：

同样使用第”1“块GPU来训练模型，我们可以在python代码开头加入下面两行：


 
 
   
   
    
    
   
   
   
   
    
    
     
     import os
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     os.environ[
     
     'CUDA_VISIBLE_DEVICES']=
     
     '1'

实验效果如下：

在python脚本代码里的最开头加上：

在终端运行脚本：

我们可以看到，使用这种方法，在训练模型时，只使用了第”1“块GPU，并且其它几块GPU没有被占用。

这种就相当于在我们运行程序的时候，将除第”1“块以外的其他GPU全部屏蔽了，只有第”1“块GPU对当前运行的程序是可见的。

同样，如果要指定第”1，2“块GPU来训练，则上面的代码可以改成：


 
 
   
   
    
    
   
   
   
   
    
    
     
     import os
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     os.environ[
     
     'CUDA_VISIBLE_DEVICES']=
     
     '2,3'

类似的如果还有更多的GPU要指定，都可以仿照上面的代码进行添加，——显卡数字中间用英文逗号隔开即可。

3.在终端执行.py文件时通过CUDA_VISIBLE_DEVICES来指定（与2类似）：

第三种方法和第二种基本一样，不过是在终端运行python程序的前面指定，比如：

CUDA_VISIBLE_DEVICES=1 python train.py

不过其实道理、实现的功能就和上面2基本是一样的。

实验效果如下：

在终端运行脚本：

前面加上CUDA_VISIBLE_DEVICES=1

大西瓜不甜

关注

2
点赞
踩
26

收藏

觉得还不错? 一键收藏
0
评论
在训练模型时如何指定具体哪一（多）块GPU显卡进行训练任务

在用tensorflow深度学习模型训练时，假设我们在训练之前没有指定具体用哪一块GPU进行训练，则默认的是选用第0块GPU来训练我们的模型。如果你的电脑有多块GPU的话，其它几块GPU的也会显示被占用。      &...
复制链接

扫一扫