Tensorflow cluster 异步分布式集群使用说明

最新推荐文章于 2024-04-18 08:42:23 发布

VIP文章 ML_SDD

最新推荐文章于 2024-04-18 08:42:23 发布

阅读量961

点赞数

分类专栏：深度学习文章标签：分布式集群 tensorflow cluster

本文链接：https://blog.csdn.net/ML_SDD/article/details/70197753

版权

Tensorflow cluster 异步分布式集群使用说明

Tensorflow,cluster,异步训练

一.Tensorflow 集群基本介绍

1.基本概念

Tensorflow的分布式并行基于gRPC通信框架，其中包括一个master负责创建Session.还有多个worker负责执行计算图中的任务。我们需要先创建一个Tensorflow Cluster对象，它包含了一组task（每个task一般是一台单独的机器）用来分布式地执行Tensorflow的计算图。一个Cluster可以切分为多个job，一个job是指一类特定的任务，比如parameter server(PS)、worker、每一个job里可以包含多个task。我们需要为每一个task创建一个server,然后连接到cluster上，通常每个task会执行在不同的机器上，当然也可以一台机器上执行多个task(控制不同的GPU)。

2.运行细节

A:在运行多GPU分布式并行程序之前，需要通过nvidia-smi命令查看GPU显存是否为0.或者占用很小，如果占用较大，分布式并行则无法成功，处于等待其它task状态之下。

B:在单机情况下执行多GPU分布式并行程序，需要同时打开多个terminal窗口。然后在不同terminal窗口按传入参数服务器，工作服务器的顺序分别执行不同的shell脚本传入对应参数。

C:shell脚本传入的参数为tf.train.ClusterSpec,具体示例如下(集群时需要替换localhost为具体主机的IP地址)：
CUDA_VISIBLE_DEVICES=0 python dis_func.py --ps_hosts=localhost:2222 --worker_hosts=localhost:2223,localhost:2224,localhost:2226 --job_name=ps --task_index=0

3.函数拟合代码解

备注：以下代码来源于

http://blog.csdn.net/guotong1988/article/details/53909844

import numpy as np
import tensorflow as tf


# Define parameters
FLAGS = tf.app.flags.FLAGS
tf.app.flags.DEFINE_float('learning_rate', 0.00003, 'Initial learning rate.')
tf.app.flags.DEFINE_integer('steps_to_validate', 1000,
                     'Steps to validate and print loss')

# For distributed
tf.app.flags.DEFINE_string("ps_hosts", "",
                           "Comma-separated list of hostname:port pairs")
tf.app.flags.DEFINE_string("worker_hosts", "",
                           "Comma-separated list of hostname:port pairs")
tf.app.flags.DEFINE_string("job_name", ""

最低0.47元/天解锁文章

ML_SDD

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Tensorflow cluster 异步分布式集群使用说明

Tensorflow cluster 异步分布式集群使用说明Tensorflow,cluster,异步训练一.Tensorflow 集群基本介绍1.基本概念Tensorflow的分布式并行基于gRPC通信框架，其中包括一个master负责创建Session.还有多个worker负责执行计算图中的任务。我们需要先创建一个Tensorflow Cluster对象，它包含了一组task（每个task一般是
复制链接

扫一扫