设置可见GPU，进行多显卡深度学习训练

最新推荐文章于 2025-03-27 12:22:58 发布

FesianXu

最新推荐文章于 2025-03-27 12:22:58 发布

阅读量5.7k

点赞数

分类专栏： Machine Learning 文章标签： gpu 深度学习 cuda python 显卡

本文链接：https://blog.csdn.net/LoseInVain/article/details/78146459

版权

Machine Learning 专栏收录该内容

45 篇文章

订阅专栏

在深度学习中，如果一台电脑具有多个NVIDIA的GPUs，用户想要在不同的GPU上训练不同的网络，那么在程序中指定占用的GPU的id，在python中如：

import os
os.environ["CUDA_DEVICE_ORDER"]="PCI_BUS_ID"   # see issue #152
os.environ["CUDA_VISIBLE_DEVICES"]="0"

即可指定GPU id为0的GPU可见，其他的不可见，就不会占用其他GPU了。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

FesianXu

关注关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

限制深度学习训练中GPU的显存使用

daoyone的博客

11-18

1872

在tensorflow中，使用GPU训练模型会默认占有所有的显存，因此需要添加一些限制条件，使显存不会被全部占用。 1.分配GPU的显存 gpu_options = tf.GPUOptions(per_process_gpu_memory_fraction=0.7) sess = tf.Session(config=tf.ConfigProto(gpu_options=gpu_options)) ...

【深度学习】GPU使用教程

LogosTR_的博客

08-20

6754

深度学习下GPU使用教程

参与评论您还未登录，请先登录后发表或查看评论

cuda设置指定的GPU可见

最新发布

weixin_42237615的博客

03-27

155

多显卡下指定调用某显卡

设置可见GPU方式

weixin_34337265的博客

03-20

1931

只可见第一块GPU os.environ["CUDA_VISIBLE_DEVICES"] = "0" 转载于:https://www.cnblogs.com/llfctt/p/10563595.html

设置GPU可见

qq_41967963的博客

02-16

1339

Ubuntu设置GPU可见自己记录一下 export CUDA_VISIBLE_DEVICES=0,1 #仅显卡设备0,1可见。

微调时设置一张GPU卡可见

qq_50079897的博客

01-15

375

最近在微调LLama8b的时候，采用float16单精度训练的话大约16GB就可以了，但是微调用到的PEFT库会把训练用到的参数大致均分到每一个可见的每个GPU上面。然而实验室的GPU都是大家一起的，这就导致每张卡占用的内存不一致，可能会导致某些卡内存不够的结果。但是实际上一张空闲的GPU卡已经可以跑起来了。

分布式训练(一)——GPU设置

zhao_crystal的博客

03-23

5572

1. GPU设置（1）默认用全部GPU并且内存全部占满（why GPU或者内存会全部占满？）（2）如何不浪费内存和计算资源？内存自增长：即弹性内存机制，内存自增长。需要多少内存，就用多少内存。虚拟设备机制：类似于windows中的磁盘（系统中一般只有一个磁盘，单windows会将其分成好几个盘，比如C盘，D盘，E盘，每个盘放不同的东西）虽然只有一个GPU，但可以将其切分成多个逻辑上的GPU （3）多GPU使用虚拟GPU & 实际GPU 手工设置 &a...

TensorFlow学习笔记[二]——在训练模型时如何指定具体哪一（多）块GPU显卡进行训练任务

volcano_Lin 的博客

07-18

1万+

在用tensorflow深度学习模型训练时，假设我们在训练之前没有指定具体用哪一块GPU进行训练，则默认的是选用第0块GPU来训练我们的模型。如果你的电脑有多块GPU的话，其它几块GPU的也会显示被占用。有些时候，我们希望可以通过自己指定一块或者几块GPU来训练我们的模型，而不是用这种系统默认的方法。接下来将介绍三种指定GPU训练的方法。我们...

在GPU上运行pytorch程序（指定单/多显卡)

qq_43307074的博客

11-04

2万+

在GPU上运行pytorch程序（指定单/多显卡)

分布式训练 -GPU训练

love1005lin的博客

05-01

3794

起初为调用大规模的模型训练，单卡GPU是不够使用的，需要借用服务器的多GPU使用。就会涉及到单机多卡，多机多卡的使用。在这里记录一下使用的方式和踩过的一些坑。文中若有不足，请多多指正。由于分布式的内容较多，笔者准备分几篇来讲一次下深度学习的分布式训练，深度学习的框架使用的是Pytorch框架。 ----1.分布式训练的理论基础 ----2.GPU训练 ----3.单机多卡的使用 ----4.多机多卡的使用首先第一个问题：我们为什么要用GPU训练？ GPU 训练有哪些好处？不急不急，让我们带着问题慢慢来

深度学习中Tensorflow多显卡多人使用问题集

Microstrong

03-04

1968

微信公众号 1.多显卡环境在某块显卡被占用时在其他显卡运行返回：Segmentation fault (core dumped) 当我在用编号为1的显卡时，其他人使用其他显卡时就会报这个错。而其他人使用编号0显卡时，我使用编号2显卡也会报错。在网上也可以看到此类问题。虽然tensorflow可以指定显卡（参见：Using GPUs），如果前端用keras时也就无从指定。其实有一劳永...

深度学习环境-多显卡配置

Zhou_Dao的博客

11-13

5460

深度学习多卡配置_组装机（多显卡）配置小贴士/深度学习主机_weixin_39716877的博客-CSDN博客贴士一：硬件在软件上有点拗口是否兼容主板和其他的硬件间都是有兼容关系的。比如说一个人的攻略里，可能会给你推荐一块高性价比的主板，一块高性价比的内存，殊不知这块主板和内存不兼容。又比如你要配置多显卡的，那主板的PCIe是否足够，功率是否足够，主板是否支持sli(是否支持交火。有些支持交火不支持sli等等)，cpu是否足够调度多张显卡等等。这些都可以在主板以及其他配件的技术文档中查到。

【深度学习】多卡训练__单机多GPU方法详解（torch.nn.DataParallel、torch.distributed）

Danger的博客

03-23

9697

【深度学习】多卡训练__单机多GPU方法详解（torch.nn.DataParallel、torch.distributed）

收藏 | GPU多卡并行训练总结

zandaoguang的博客

08-27

1610

点击上方“视学算法”，选择加"星标"或“置顶”重磅干货，第一时间送达仅作学术分享，不代表本公众号立场，侵权联系删除转载于：记忆的迷谷@知乎（已授权）来源 | https:/...

【指定GPU】使用CUDA_VISIBLE_DEVICES指定可见GPU时的一些坑

syh的技术记录

10-24

7733

结论：虽然这里代码输出当前device id是0，但其实指的是GPU：1，实际使用时也会使用GPU：1。由于设置CUDA_VISIBLE_DEVICES=1,2，所以只有GPU：1和GPU：2对代码可见，代码会认为可见的第一个GPU（即GPU：1）的id为0。

【设置gpu设备】os.environ[‘CUDA_VISIBLE_DEVICES‘] 和 torch.cuda.set_device()

Danger的博客

03-23

2万+

【设置gpu设备】os.environ[‘CUDA_VISIBLE_DEVICES‘] 和 torch.cuda.set_device()

ubuntu笔记本外置显卡开展深度学习

张鹏的博客

01-12

7359

雷蛇灵刃笔记本+雷电3外置显卡坞：ubuntu18+pytorch和tenorflow开展深度学习1. 软硬件准备1.1 硬件配置1.2 系统2. 具体步骤2.1 给雷蛇笔记本安装ubuntu18.04LTS2.2 设置启动项2.3 在ubuntu上配置环境附件conda虚拟环境创建、复制、删除、切换 [原创文章，若有参考请引用，尊重他人劳动成果] 长期以来，深度学习研究都依赖于台式机+高性能显卡...

在Ubuntu中使用雷电3外接显卡（eGPU）进行深度学习

qq_41856057的博客

09-07

9713

种种很凑巧的因素，需要用这么一套设备做深度学习。笔记本是联想yoga s730，两年前在某多多入手，显卡坞是技嘉gaming box+GTX1070，某鱼入手。折腾了一上午，踩了一些坑，终于把这东西配置好了，下面记录并分享一下过程（主要的坑反而在打驱动上） 1. 笔记本安装好Ubuntu系统不多解释=。= 2. 笔记本接好显卡坞 2.1 buntu系统是支持雷电三设备的，在插好显卡后，系统应该会有提示。没有提示也没关...

NVIDIA深度学习显卡

02-09

### NVIDIA 深度学习 GPU 显卡型号及性能 #### Tesla 系列显卡 Tesla系列显卡是NVIDIA针对高性能计算和人工智能领域推出的产品线，被广泛应用于科学计算、深度学习、大规模数据分析等领域。该系列产品如A100、A800、V100、T4、P40等均具备强大的并行计算能力和高性能计算效率[^2]。 - **Tesla A100** - 基于最新的安培架构，提供卓越的浮点运算能力。 - 支持多种精度级别（FP32, FP64, TF32），适应不同应用场景的需求。 - **Tesla V100** - 使用Volta架构，配备HBM2内存，拥有极高的带宽。 - 特有的Tensor Core单元显著提升了矩阵乘法的速度，在深度神经网络训练中有出色表现。 - **Tesla T4** - Turing架构产品之一，集成了RT Cores用于光线追踪加速。 - 对于推理任务特别有效率，功耗相对较低而性价比高。 - **Tesla P40** - Pascal架构下的旗舰级数据中心GPU。 - 提供大量的CUDA核心数，适合处理复杂的机器学习模型训练工作负载。 #### GeForce 类型家用显卡虽然主要面向游戏市场设计，但部分高端GeForce RTX/ GTX系列同样能够胜任轻量级至中等规模的深度学习项目： - **GeForce RTX 3090 / 3080 Ti** - 新一代Ampere架构带来更高的能效比。 - 大容量GDDR6X显存有助于加载更大尺寸的数据集。 - **GeForce RTX 2080 Super / 2070 Super** - Turing架构下性价比较好的选项。 - 可满足大多数常见AI算法开发环境的要求。对于希望从事深度学习工作的个人开发者来说，选择合适的NVIDIA GPU时不仅要考虑硬件规格参数，还要关注所选设备能否良好支持目标框架（比如TensorFlow、PyTorch）。此外，考虑到长期维护成本和技术更新速度等因素也很重要[^1]。 ```python import tensorflow as tf from keras import backend as K # 设置可见的GPU ID gpus = tf.config.experimental.list_physical_devices('GPU') if gpus: try: # Restrict TensorFlow to only use the first GPU tf.config.experimental.set_visible_devices(gpus[0], 'GPU') logical_gpus = tf.config.experimental.list_logical_devices('GPU') print(len(gpus), "Physical GPUs,", len(logical_gpus), "Logical GPU") except RuntimeError as e: # Visible devices must be set before GPUs have been initialized print(e) K.clear_session() ```