tensorflow分布式的原理、架构以及更新参数模式

最新推荐文章于 2024-08-01 00:39:16 发布

DAN_L

最新推荐文章于 2024-08-01 00:39:16 发布

阅读量1.3k

点赞数 1

分类专栏： tensorflow 文章标签：分布式深度学习

本文链接：https://blog.csdn.net/DAN_L/article/details/106929907

版权

本文深入探讨了Tensorflow的分布式实现，包括基于gRPC的高性能通信框架，分布式系统的概念，以及单机多卡和多机多卡的训练过程。详细解析了参数服务器和工作服务器的角色，同步和异步更新参数的模式，并介绍了设备命名规则和分布式API的使用，如tf.train.ClusterSpec和tf.train.Server的创建。

摘要由CSDN通过智能技术生成

一、定义
分布式Tensorflow是由高性能的gRPC框架作为底层技术来支持的。这是一个通信框架gRPC(google remote procedure call)，是一个高性能、跨平台的RPC框架。RPC协议，即远程过程调用协议，是指通过网络从远程计算机程序上请求服务。
RPC框架：远程过程调用，相当于是对底层协议的一个封装，解决一些传输错误和同步的问题，例如视频会议这些都需要用到RPC框架。
分布式系统：hadoop、tensorflow
二、计算机网络七层模型
（一）应用层 http协议
（二）表示层
（三）会话层
（四）传输层 tcp/udp
（五）网络 ip
（六）数据链路层 ppp
（七）物理层 rj45
三、分布式原理
在这里插入图片描述
（一）单机多卡：指单台服务器有多快GPU设备，运算速度GPU>CPU。假设一台机器上有4块GPU，单机多GPU的训练过程如下：
1、在单机单GPU的训练中，数据是一个batch一个batch的训练。在单机多GPU中，数据一次处理4个batch（假设是4个GPU训练），每个GPU处理一个batch的数据计算。
2、变量，或者说参数，保存在CPU上。数据由CPU分发给4个GPU，在GPU上完成计算，得到每个批次要更新的梯度