tensorflow分布式运行的代码

手写识别体应用

参照下面链接

单机运行多个进程实现分布式是很顺利的,但是实现多机的分布式还是遇到了很多的问题的,报了一些错误。
后来我觉得是不是前面的代码不适合在多机的适合运行,毕竟那篇文章的作者也没有自己尝试,然后又参考了这篇文章很好的文章,这篇文章的作者还出了书,蛮厉害的。使用了这篇作者的文章,然后又运行报错了,我就想是不是我tensorflow的问题,我的分布式的两台主机的tensorflow版本是不一样的,一个是1.1.0,一个是1.13.0,操作系统也不一样,一个是ubuntu14,一个是ubuntu16。
不是我不想让他们一样,是ubuntu14.04的安装tensorflow1.13的时候,会有gcllib什么2.23not found的错误,要进行升级,升级会面临着死机的风险,这个风险我是万万不能接受的。所以就安了一个1.1.0的版本试试看。


分割线
解决方案是
我让两台主机都安装了tensorflow1.8.0的版本

pip install --ignore-installed --upgrade https://mirrors.tuna.tsinghua.edu.cn/pypi/web/packages/6d/dc/464f59597a5a8282585238e6e3a7bb3770c3c1f1dc8ee72bd5be257178ec/tensorflow-1.8.0-cp35-cp35m-manylinux1_x86_64.whl#sha256=d345d296aeb05eeb50d9de43a1dcb66ceaba6a2bd603f58aeefaa07b2c1bfac1

然后运行分布式代码,代码来自那篇作者的github
在server1(10.108.63.77)上运行两个进程,一个是ps,一个是worker0
开一个终端
运行前还要,激活anaconda创建的环境

source activate newtensorflow
cd ~/myshare/distributeTensorflowExample
python distribute.py --ps_hosts=10.108.63.77:2222 --worker_hosts=10.108.63.77.42:2224 ,10.108.61.249:2225 --job_name=ps --task_index=0

开另一个终端

python distribute.py --ps_hosts=10.108.63.77:2222 --worker_hosts=10.108.63.77.42:2224 ,10.108.61.249:2225 --job_name=worker --task_index=0

在Server2(10.108.61.249)上运行一个worker进程

python distribute.py --ps_hosts=10.108.63.77:2222 --worker_hosts=10.108.63.77:2224 ,10.108.61.249:2225 --job_name=worker --task_index=1

然后代码就跑起来了,撒花,这个问题花了我很长时间才解决。感觉我废话好多,大家将就着看吧~

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值