本博文参考TensorFlow技术解析与实战(李嘉璇),仅用于学习。
一、原理
分布式TensorFlow是由高性能的gRPC库作为底层技术来支持的。gRPC是Google开源的RPC框架(远程过程调用协议),相当于提供一个接口,用户将参数从本地传递到远程服务器,在服务器上实现计算,客户端最后获得传回的结果。
TensorFlow部署分为单机多卡(左)和多机多卡(分布式,右)。单机多卡就是一台服务器上有多个GPU,多机多卡(分布式)是指训练在多个工作节点(worker)上。
TensorFlow集群(cluster)可以划分为一个到多个工作(job),每个工作可以划分为一个到多个任务(task)。