TensorFlow 2.x 多显卡分布式训练

当机器上有多个显卡时,TensorFlow如何最大限度的使用呢?目前TensorFlow并没有完美支持多显卡并行,它提倡的是数据并行而已。所以我们在买显卡的时候,尽可能选择单显卡的显存大一些的。

那么多显卡该如何实现数据并行呢?使用的就是下面的API

tensorflow.distribute.Strategy
是一个可在多个 GPU、多台机器或 TPU 上进行分布式训练的 TensorFlow API。使用此 API,您只需改动较少代码就能分布现有模型和训练代码。

tensorflow.distribute.Strategy具有一下特点:

  • 使用方便, 支持多用户
  • 提供导入即可用的良好性能
  • 轻松切换策略

导入该程序后,默认选择你机器上的所有显卡进行训练:

import tensorflow as tf
mirrored_strategy = tf.distribute.MirroredStrategy()

如果你想选择机器上的某几个显卡的话(假设你有5张显卡,你想用第2,3张):

mirrored_strategy = tf.distribute.MirroredStrategy(devices=["/gpu:1", "/gpu:2"])

接下来正常写你的代码即可,然后执行,就使用所有显卡进行训练了。
注意:
虽然tf.distribute.MirroredStrategy 支持在一台机器的多个 GPU 上进行同步分布式训练。但是该策略会为每个GPU设备创建一个数据备份,模型中的每个变量都会在副本之间进行复制(镜像)。这些变量会有一个共同的名字,MirroredVariable镜像变量。折现变量会应用相同的更新彼此保持同步。这样做只是增加了计算速度,让你的结果更快的计算出来,但是并不能想CPU并行那样,内存里的变量会共享。也就是说,这里的显卡并行计算,只是提高的速度,并不会使得你的数据量翻倍。如果增加数据,依然回报内存溢出的错误。

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

星空下0516

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值