pytorch分布式训练简单总结

CaiDou_

已于 2022-06-16 18:03:37 修改

阅读量529

点赞数

分类专栏：模型框架学习文章标签： pytorch 分布式深度学习

于 2021-01-25 17:32:40 首次发布

本文链接：https://blog.csdn.net/qq_36276587/article/details/113124122

版权

模型框架学习专栏收录该内容

13 篇文章 0 订阅

订阅专栏

这个是较为简单的，详细请移步另一篇文章：https://blog.csdn.net/qq_36276587/article/details/123913384

简单总结使用pytorch进行单机多卡的分布式训练，主要是一些关键API的使用，以及分布式训练流程，pytorch版本1.2.0可用

初始化GPU通信方式（NCCL）

import torch.distributed as dist

torch.cuda.set_device(FLAGS.local_rank)
dist.init_process_group(backend='nccl')
device = torch.device("cuda", FLAGS.local_rank) #自己设置

分布式的数据加载

train_sampler = torch.utils.data.distributed.DistributedSampler(traindataset)
train_loader = torch.utils.data.DataLoader(
        traindataset, batch_size=batchSize,
        sampler=train_sampler,
        num_workers=4, pin_memory=True,#drop_last=False,
        collate_fn=alignCollate(imgH=imgH, imgW=imgW, keep_ratio=FLAGS.keep_ratio))
#pytorch的DataLoader格式处理训练标签

分布式训练模型

#初始化后的模型使用分布式训练
model = torch.nn.SyncBatchNorm.convert_sync_batchnorm(model)  ## 同步bn
model = torch.nn.parallel.DistributedDataParallel(model, device_ids=[FLAGS.local_rank],
                                                      output_device=FLAGS.local_rank)

启动训练

CUDA_VISIBLE_DEVICES=0,1,2,3 python -m torch.distributed.launch --nproc_per_node=4 train_distributed.py

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

CaiDou_

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

【深入了解PyTorch】PyTorch分布式训练：多GPU、数据并行与模型并行

Science prince的博客

08-11

856

分布式训练是指将训练过程分散到多个计算设备上，以提高训练速度和性能。在PyTorch中，分布式训练可以通过和等模块来实现。这些模块提供了不同的并行策略，适用于不同规模的训练任务。本篇博文介绍了如何使用PyTorch进行分布式训练，包括多GPU训练、数据并行和模型并行的实现方法。多GPU训练适用于简单的模型并行计算，数据并行适用于大型数据集，而模型并行则适用于大型模型。通过灵活选择适合任务的并行策略，可以在更短的时间内训练出更强大的深度学习模型。

Pytorch 分布式模式介绍

weixin_36670529的博客

05-19

1万+

一 分布式训练策略数据较多或者模型较大时，为提高机器学习模型训练效率，一般采用多GPU的分布式训练。按照并行方式，分布式训练一般分为数据并行和模型并行两种，模型并行：分布式系统中的不同GPU负责网络模型的不同部分。例如，神经网络模型的不同网络层被分配到不同的GPU，或者同一层内部的不同参数被分配到不同GPU；数据并行：不同的GPU有同一个模型的多个副本，每个GPU分配到不同的数据，...

参与评论您还未登录，请先登录后发表或查看评论

pytorch-pruning-2step:两阶段修剪以支持分布式推理（本地设备计算模型的一半，上载功能以在更强大的设备或云上进行进一步的计算）

05-16

使用PyTorch进行培训和修剪由hou-yz提供，基于kuangliu/pytorch-cifar 提高推理速度并减少中间特征的大小，以支持分布式推理（本地设备计算模型的一半，并上传特征以在更强大的设备或云上进行进一步的计算）。修剪阶段1：修剪整个模型以提高推理速度并稍微减小中间特征的大小。修剪阶段2 ：（基于步骤1的模型）针对每个分割点（将中间特征转移到另一个设备以进行进一步计算），特别是修剪分割点之前的层以进一步减小中间特征的大小。仅支持pytorch> 0.3.1的python3; 在cifar-10上训练的模型，仅在vgg-16上进行了测试。还添加了自动记录和自动绘制图表。用法训练： python main. py -- train # train from scratch python main. py -- resume

pytorch分布式训练（五DataLoader）

m0_37400316的博客

07-09

823

torch.utils.data.DataLoader 本节讲述collate_fn使用。 def __init__(self, dataset, batch_size=1, shuffle=False, sampler=None, batch_sampler=None, num_workers=0, collate_fn=None, pin_memory=False, drop_last=False, timeout=0,

pytorch分布式训练使用Dataloader/WebDataset进行数据并行加载

分享机器学习、深度学习、分布式计算、MLSys相关领域知识

06-12

3258

pytorch分布式训练使用Dataloader/WebDataset进行数据并行加载 1. 使用pytorch原生的DistributedSampler 在pytorch DDP数据并行时会对数据集进行切分，每个rank节点只处理部分数据。使用DistributedSampler来会把dataset数据集采样为一个子数据集。定义如下： torch.utils.data.distributed.DistributedSampler(dataset, num_replicas=None, rank=None,

Pytorch 分布式训练DDP(torch.distributed)详解-原理-代码

weixin_42503655的博客

01-12

5691

Pytorch 分布式训练-原理-代码

PyTorch 多机多卡训练：分布式实战与技巧

datayx的文章

07-28

3247

向AI转型的程序员都关注了这个号????????????机器学习AI算法工程公众号：datayxDistributedDataParallel（DDP）是一个支持多机多卡、分布式训练...

PyTorch分布式训练方法

weixin_66945478的博客

03-15

5340

本期文章分享的，是如何使用起多张显卡，来加速你的AI模型。分布式训练技术逐渐成为AI从业者必备技能之一，这是从“小模型”走向“大模型”的必由之路。我们以 PyTorch 编写的ResNet训练为例，为大家展示不同的分布式训练方法及其效果。

Pytorch 分布式训练

lib0000的博客

05-15

1916

Pytorch 分布式训练整理介绍 TCP / ENV 初始化方式。

pytorch 训练过程acc_PyTorch分布式训练简明教程

weixin_33055757的博客

01-16

1298

神经网络训练加速的最简单方法是使用GPU，对弈神经网络中常规操作(矩阵乘法和加法)GPU运算速度要倍超于CPU。随着模型或数据集越来越大，一个GPU很快就会变得不足。例如，BERT和GPT-2等大型语言模型是在数百个GPU上训练的。对于多GPU训练，需要一种在不同GPU之间对模型和数据进行切分和调度的方法。PyTorch是非常流行的深度学习框架，它在主流框架中对于灵活性和易用性的平衡最好。Pyto...

pytorch 分布式训练

Billie使劲学的博客

12-26

3030

神经网络训练加速的最简单方法是使用GPU，对弈神经网络中常规操作（矩阵乘法和加法）GPU运算速度要倍超于CPU。随着模型或数据集越来越大，一个GPU很快就会变得不足。例如，BERT和GPT-2等大型语言模型是在数百个GPU上训练的。对于多GPU训练，需要一种在不同GPU之间对模型和数据进行切分和调度的方法。PyTorch是非常流行的深度学习框架，它在主流框架中对于灵活性和易用性的平衡最好。和。DataParallel更易于使用（只需简单包装单GPU模型）。

Pytorch分布式训练/多卡训练(二) —— Data Parallel并行(DDP)(2.1)(基本概念&代码框架)

hxxjxw的博客

08-18

4517

Pytorch官网已经建议使用DistributedDataParallel来代替DataParallel, 因为DistributedDataParallel比DataParallel运行的更快, 然后显存分配的更加均衡. 而且DistributedDataParallel功能更加强悍 DDP与DP的区别 ①DataLoader部分需要使用Sampler，保证不同GPU卡处理独立的子集. ②模型部分使用DistributedDataParallel. DDP的主要代码部分 .......

5. PyTorch+NCCL源码编译