TensorFlow单机与分布式总结

最新推荐文章于 2022-05-09 12:00:26 发布

Ftwhale

最新推荐文章于 2022-05-09 12:00:26 发布

阅读量220

点赞数

分类专栏：深度学习文章标签：分布式 tensorflow 深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Ftwhale/article/details/106985266

版权

本文介绍了TensorFlow的单机多GPU训练和分布式训练，包括In-graph模式和Between-graph模式。在单机多GPU训练中，通过CPU协调多个GPU进行同步计算。分布式训练中，In-graph模式简化配置但受限于数据分发，而Between-graph模式适用于大数据训练，通过参数服务器实现数据并行。

摘要由CSDN通过智能技术生成

单机多GPU训练

先简单介绍下单机的多GPU训练，然后再介绍分布式的多机多GPU训练。

单机的多GPU训练， tensorflow的官方已经给了一个cifar的例子，已经有比较详细的代码和文档介绍，这里大致说下多GPU的过程，以便方便引入到多机多GPU的介绍。

单机多GPU的训练过程：

通俗解释：

老师给小明和小华布置了10000张纸的乘法题并且把所有的乘法的结果加起来，每张纸上有128道乘法题。这里一张纸就是一个batch， batch_size就是128. 小明算加法比较快，小华算乘法比较快，于是小华就负责计算乘法，小明负责把小华的乘法结果加起来。这样小明就是CPU，小华就是GPU.

这样计算的话，预计小明和小华两个人得要花费一个星期的时间才能完成老师布置的题目。于是小明就招来2个算乘法也很快的小红和小亮。于是每次小明就给小华，小红，小亮各分发一张纸，让他们算乘法，他们三个人算完了之后，把结果告诉小明，小明把他们的结果加起来，然后再给他们每人分发一张算乘法的纸，依次循环，知道所有的算完。

这里小明采用的是同步模式，就是每次要等他们三个都算完了之后，再统一算加法，算完了加法之后，再给他们三个分发纸张。这样速度就取决于他们三个中算乘法算的最慢的那个人，和分发纸张的速度。

TF分布式模式

In-graph 模式

将模型的计算图的不同部分放在不同的机器上执行

In-graph模式和单机多GPU模型有点类似。还是一个小明算加法，但是算乘法的就可以不止是他们一个教室的小华，小红，小亮了。可以是其他教师的小张，小李。。。。

In-

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
TensorFlow单机与分布式总结

单机多GPU训练先简单介绍下单机的多GPU训练，然后再介绍分布式的多机多GPU训练。单机的多GPU训练， tensorflow的官方已经给了一个cifar的例子，已经有比较详细的代码和文档介绍，这里大致说下多GPU的过程，以便方便引入到多机多GPU的介绍。单机多GPU的训练过程：通俗解释：老师给小明和小华布置了10000张纸的乘法题并且把所有的乘法的结果加起来，每张纸上有128道乘法题。这里一张纸就是一个batch， batch_size就是128. 小明算加法比较快，小华算乘法比较快，于是小华就
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。