pytorch深度学习一机多显卡训练设置，流程

最新推荐文章于 2024-08-09 11:35:37 发布

Mr.July

最新推荐文章于 2024-08-09 11:35:37 发布

阅读量1w

点赞数 7

文章标签： pytorch ubuntu 深度学习 python 人工智能

本文链接：https://blog.csdn.net/qq_45860671/article/details/122413798

版权

最近在学习在服务器的ubuntu环境上配置用多个显卡训练，之前只用一个显卡训练实在是太慢了点

先看看服务器上有几个显卡：

nvidia-smi

即可得到具体的显卡信息：

每个显卡之前有对应的编号。

然后得知自己服务器上总共有多少显卡后，插入以下代码：

#一机多卡设置
os.environ['CUDA_VISIBLE_DEVICES'] = '0,1,2,3'#设置所有可以使用的显卡，共计四块
device_ids = [0,1]#选中其中两块
model = nn.DataParallel(model, device_ids=device_ids)#并行使用两块
#net = torch.nn.Dataparallel(model)  # 默认使用所有的device_ids
model = model.cuda()

有两个注意点：

（1）笔者自己使用该代码时，虽然device_ids中选择的是0/1两块显卡，但是实际上却是在2/3两块显卡上运行的，这个可能是显示问题，大家可以运行之后再使用nvidia-smi命令查看到底是在哪两块显卡上训练的

（2）这个代码是要写在模型装载之后，比如说举例

model = CANNet2s()

在这后加上图示代码，才可以将model分配到硬件上，此处我使用的是model.cuda()函数，大家也可以用todevice。

对比一下只使用一张显卡：

#一机单卡设置
model = model.cuda()

将会自动选择一张可以用的显卡进行训练。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Mr.July

关注关注

7
点赞
踩
48

收藏

觉得还不错? 一键收藏
6
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

PyTorch深度学习实践_pytorch_深度学习_

10-01

pytorch深度学习实践，深度学习实践入门，内附pdf，代码。

多机多卡分布式训练(Distributed Data DataParallel, DDP)安装踩坑记录

xyl_507的博客

04-28

4668

最近在做目标跟踪的训练时，需要对backbone做一个在imagenet上的预训练模型。众所周知，140GB+的imagenet数据集上训练网络很是考验算力。刚开始在单机双卡(2080Ti)上试了一下，1个epoch需要6个小时，跑完100 epoch大约100*6/24=25天。瞬间放弃单机多卡，将目光放在了多机多卡训练，特撰文记录这段时间的工作，方便以后查询。一、准备工作因为之前配置单机的深度学习环境时，备份了许多安装包，所以后续大多数都是离线安装安装包目录： cuda_10.2.89

6 条评论您还未登录，请先登录后发表或查看评论

【深度学习】多卡训练__单机多GPU方法详解（torch.nn.DataParallel、torch.distributed）

Danger的博客

03-23

8295

【深度学习】多卡训练__单机多GPU方法详解（torch.nn.DataParallel、torch.distributed）

pytorch多GPU训练简明教程

古月居

08-09

736

首先打乱数据顺序，然后用 11/2 =6（向上取整），然后6乘以GPU个数2 = 12，因为只有11个数据，所以再把第一个数据（索引为6的数据）补到末尾，现在就有12个数据可以均匀分到每块GPU。BatchSampler原理: DistributedSmpler将数据分配到两个GPU上，以第一个GPU为例，分到的数据是6，9，10，1，8，7，假设batch_size=2，就按顺序把数据两两一组，在训练时，每次获取一个batch的数据，就从组织好的一个个batch中取到。每个进程都有一个唯一的 rank。

多GPU训练大型模型：资源分配与优化技巧｜英伟达将推出面向中国的改良芯片HGX H20、L20 PCIe、L2 PCIe

LANHYGPU的博客

11-16

2059

在人工智能领域，大型模型因其强大的预测能力和泛化性能而备受瞩目。然而，随着模型规模的不断扩大，计算资源和训练时间成为制约其发展的重大挑战。特别是在英伟达禁令之后，中国AI计算行业面临前所未有的困境。为了解决这个问题，英伟达将针对中国市场推出新的AI芯片，以应对美国出口限制。本文将探讨如何在多个GPU上训练大型模型，并分析英伟达禁令对中国AI计算行业的影响。

训练模型使用多块显卡GPU（亲测可用，详细说明）

qq_40962125的博客

08-01

7108

原理终端输入的那段话意思是让代码只可以识别X1,X2,X3这三块显卡，而且还会默认X1为第一块显卡也就是位置为0的显卡。所以后面调用时我们输入的[0，1，2]对应的就是第一块第二块第三块卡，这时候我们只能识别4，5，6卡而且顺序是4，5，6所以第一个位置0上对应的就是显卡id=4的卡，以此类推。这里面要填的是使用几块卡，必须是从0开始然后依次往下，比如调用两块就是[0,1]，以此类推。注意函数的第二个参数device_ids=[0,1,2]X1,X2,X3为当前可用显卡序号比如4，5，6。......

pytorch使用多显卡训练

qq_44108731的博客

12-17

4996

多显卡参考链接链接1 链接2 链接3 第一步：设置多卡训练正确如果服务器的0号卡被别人占用，就得在刚开始加上这几行代码，手动更改0号显卡是2,1号卡是3。实际上，在通过各种提交方式提交程序作业至服务器，被分配好显卡之后，CUDA_VISIBLE_DEVICES已经被设置为可用的卡的逻辑编号了，直接写就好了。如果想得知自己使用的是哪一张卡，可以使用os.environ查看系统环境比那辆，应该就能找到。习惯放在import os之后 os.environ["CUDA_DEVICE_ORDER"] = "

Pytorch深度学习入门与实战课程

09-13

Pytorch深度学习入门与实战课程是一套系统实战课程，结合了超多的经典实例，比如：图像定位实例、Unet语义分割实例、LinKnet图像语义分割实例、经典四种天气分类实例、文本分类实例、循环神经网络、Tensorboard可视...

pytorch深度学习代码合集

02-01

PyTorch深度学习代码合集是一系列用于学习和实践深度学习技术的资源，主要基于Python编程语言和PyTorch框架。PyTorch是Facebook开源的一个强大的机器学习库，以其灵活性和易用性受到广大开发者喜爱，尤其在研究和...

PyTorch深度学习实战训练营.zip