Pytorch多GPU并行训练

Pytorch多GPU并行训练

多GPU训练的原因

  • 模型特别大,不同模块放在不同GPU,对训练速度无提升(model parallel)
  • 将整个模型同时并行进行训练,提高了batch_size,即提高了训练速度(data parallel)

数据集如何在不同设备间分配

误差梯度如何在不同设备之间通信

BatchNormalization如何在不同设备间同步

  • 使用同步的BN会降低并行速度

Distributed data parallel

Pytorch中使用多GPU训练的常用启动方式

  • 方法一:torch.distributed.launch
    • 代码量少点,启动速度快点
    • 如果开始训练后,手动强制终止程序,有小概率会出现进程没有杀掉的情况(要关注显存占用)
  • 方法二:torch.multiprocessing
    • 拥有更好的控制和灵活性
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值