tensorflow 分布式训练

TF实现分布式流程

1、创建集群 ClusterSpec & Server
    cluster = tf.train.ClusterSpec({"ps": ps_hosts, "worker": worker_hosts})
    server = tf.train.Server(cluster,  job_name=FLAGS.job_name, task_index=FLAGS.task_index)
2、设置ps节点
    tf.train.replica_device_setter(cluster=cluster)
    server.join()
3、设置worker节点
    chief 设置    
4、同步训练配置【可选】
    同步
        train.SyncReplicasOptimizer
    同步&chief
        chief_queue_runner 
5、train——session
    # sv =tf.train.Supervisor
    # sess = sv.prepare_or_wait_for_session(server.target)
    tf.train.MonitoredTrainingSession()
    # tf.train.Supervisor已经被弃用了

 

2、示例

 

MINIST_demo:

  https://github.com/novav/mnist_distributed/tree/master

转载于:https://www.cnblogs.com/xiaoniu-666/p/10916360.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值