TensorFlow分布式计算

最新推荐文章于 2021-07-06 03:24:08 发布

Hi-Cloud

最新推荐文章于 2021-07-06 03:24:08 发布

阅读量1.2k

点赞数

分类专栏： NLP

本文链接：https://blog.csdn.net/muumian123/article/details/86374058

版权

本文介绍了TensorFlow的分布式计算原理，包括使用gRPC作为通信机制，集群创建，任务分为参数服务器（ps）和工作节点（worker）。详细阐述了同步和异步更新、图内和图间模式，并对比了TensorFlow与Spark的分布式特性。此外，还提到了TensorFlowOnSpark，一种在Spark集群上实现分布式TensorFlow训练和推理的解决方案，以及其优势和挑战。

摘要由CSDN通过智能技术生成

分布式Tensorflow底层的通信是gRPC。gRPC首先是一个RPC，即远程过程调用，通俗的解释是：假设你在本机上执行一段代码num=add(a,b)，它调用了一个过程call，然后返回了一个值num，你感觉这段代码只是在本机上执行的，但实际情况是，本机上的add方法是将参数打包发送给服务器，然后服务器运行服务器端的add方法，返回的结果再将数据打包返回给客户端。

TensorFlow集群就是一组任务，每个任务就是一个服务。服务由两个部分组成，第一部分是master，用于创建session，第二部分是worker，用于执行具体的计算。TensorFlow一般将任务分为两类job：一类叫参数服务器，parameter server，简称为ps，用于存储tf.Variable；一类就是普通任务，称为worker，用于执行具体的计算。

一般而言，机器学习的参数训练过程可以划分为两个类别：第一个是根据参数算算梯度，第二个是根据梯度更新参数。对于小规模训练，数据量不大，参数数量不多，一个CPU就足够了，两类任务都交给一个CPU来做。对于普通的中等规模的训练，数据量比较大，参数数量不多，计算梯度的任务负荷较重，参数更新的任务负荷较轻，所以将第一类任务交给若干个CPU或GPU去做，第二类任务交给一个CPU即可。对于超大规模的训练，数据量大、参数多，不仅计算梯度的任务要部署到多个CPU或GPU上，而且更新参数的任务也要部署到多个CPU。如果计算量足够大，一台机器能搭载的CPU和GPU数量有限，就需要多台机器来进行计算能力的扩展了。参数服务器是一套分布式存储，用于保存参数，并提供参数更新的操作。

1 TensorFlow集群创建

每个任务用一个ip:port表示。TensorFlow用tf.train.ClusterSpec表示一个集群信息。

import tensorflow as tf

cluster = tf.train.ClusterSpec({
    "worker": [

        "worker_task0.example.com:2222",# /job:w

最低0.47元/天解锁文章

Hi-Cloud

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
TensorFlow分布式计算

分布式Tensorflow底层的通信是gRPC。gRPC首先是一个RPC，即远程过程调用，通俗的解释是：假设你在本机上执行一段代码num=add(a,b)，它调用了一个过程call，然后返回了一个值num，你感觉这段代码只是在本机上执行的，但实际情况是，本机上的add方法是将参数打包发送给服务器，然后服务器运行服务器端的add方法，返回的结果再将数据打包返回给客户端。TensorFlow集群就...
复制链接

扫一扫

专栏目录