《TensorFlow技术解析与实战》第14章 分布式TensorFlow

本文深入探讨了TensorFlow的分布式计算,从分布式原理、架构、模式到API使用,详细阐述了单机多卡与分布式部署的区别,以及数据并行、同步更新与异步更新的策略。此外,还介绍了分布式训练的最佳实践,包括代码框架和MNIST数据集的分布式训练示例。
摘要由CSDN通过智能技术生成

TensorFlow的一大亮点就是支持分布式计算。分布式TensorFlow是由高性能的gRPC库作为底层技术来支持的。本章我们就来学习分布式TensorFlow所支持的架构和适用场景。

本章前3节主要参考了Martín Abadi、Ashish Agarwal和Paul Barham等的论文《TensorFlow: Large-Scale Machine Learning on Heterogeneous Distributed Systems》[1]

首先,我们介绍TensorFlow的分布式原理。TensorFlow的分布式集群由多个服务器进程和客户端进程组成。TensorFlow有几种部署方式,如单机多卡和分布式(多机多卡),一般我们把多机多卡的部署称为TensorFlow的分布式。本节先介绍单机多卡和分布式的区别,随后介绍分布式的部署方式。

单机多卡是指单台服务器有多块GPU。假设一台机器上有4块GPU,单机多GPU的训练过程如下。

(1)在单机单GPU的训练中,数据是一个批次(batch)一个批次地训练的。在单机多GPU中,一次处理4个批次的数据,每个GPU处理一个批次

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

人民邮电出版社有限公司

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值