TensorFlow 2.x 多显卡分布式训练

最新推荐文章于 2024-07-07 03:07:38 发布

星空下0516

最新推荐文章于 2024-07-07 03:07:38 发布

阅读量2k

点赞数 2

文章标签： tensorflow 分布式深度学习多显卡训练多显卡

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_28531269/article/details/121699928

版权

TensorFlow 多GPU 数据并行 MirroredStrategy 分布式训练

关键词由CSDN通过智能技术生成

当机器上有多个显卡时，TensorFlow如何最大限度的使用呢？目前TensorFlow并没有完美支持多显卡并行，它提倡的是数据并行而已。所以我们在买显卡的时候，尽可能选择单显卡的显存大一些的。

那么多显卡该如何实现数据并行呢？使用的就是下面的API

tensorflow.distribute.Strategy
是一个可在多个 GPU、多台机器或 TPU 上进行分布式训练的 TensorFlow API。使用此 API，您只需改动较少代码就能分布现有模型和训练代码。

tensorflow.distribute.Strategy具有一下特点：

使用方便，支持多用户
提供导入即可用的良好性能
轻松切换策略

导入该程序后，默认选择你机器上的所有显卡进行训练：

import tensorflow as tf
mirrored_strategy = tf.distribute.MirroredStrategy()

如果你想选择机器上的某几个显卡的话（假设你有5张显卡，你想用第2，3张）：

mirrored_strategy = tf.distribute.MirroredStrategy(devices=["/gpu:1", "/gpu:2"])

接下来正常写你的代码即可，然后执行，就使用所有显卡进行训练了。
注意:
虽然tf.distribute.MirroredStrategy 支持在一台机器的多个 GPU 上进行同步分布式训练。但是该策略会为每个GPU设备创建一个数据备份，模型中的每个变量都会在副本之间进行复制（镜像）。这些变量会有一个共同的名字，MirroredVariable镜像变量。折现变量会应用相同的更新彼此保持同步。这样做只是增加了计算速度，让你的结果更快的计算出来，但是并不能想CPU并行那样，内存里的变量会共享。也就是说，这里的显卡并行计算，只是提高的速度，并不会使得你的数据量翻倍。如果增加数据，依然回报内存溢出的错误。

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
0
评论
TensorFlow 2.x 多显卡分布式训练

当机器上有多个显卡时，TensorFlow如何最大限度的使用呢？目前TensorFlow并没有完美支持多显卡并行，它提倡的是数据并行而已。所以我们在买显卡的时候，尽可能选择单显卡的显存大一些的。那么多显卡该如何实现数据并行呢？使用的就是下面的API tensorflow.distribute.Strategy 是一个可在多个 GPU、多台机器或 TPU 上进行分布式训练的 TensorFlow API。使用此 API，您只需改动较少代码就能分布现有模型和训练代码。tf.distribute.St
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

星空下0516 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。