具体报错如下:
2018-07-24 16:28:43.875720: E tensorflow/core/distributed_runtime/master.cc:269] Master init: Unavailable: OS Error
INFO:tensorflow:Error reported to Coordinator: <class 'tensorflow.python.framework.errors_impl.UnavailableError'>, OS Error
该报错是在tensorflow分布式训练下报的,通过查找资料,可能是tensorflow的一个bug,不过解决方法也是有的。
方法一:
在起worker时加上延时,我是在脚本里加了sleep 5秒,我用的这个方法,加了之后,就没报错了;
方法二:
把tf.train.Supervisor 改成tf.train.MonitoredTrainingSession,因为Supervisor 这个在报错后就直接退出,MonitorTrainingSession当初始化失败后,会重新创建一个新的session。
具体可以参考以下资料: