Open MPI集群运行

部署完之后,代码也能正确跑起来了,也确实集群分散了。跑一下各种各样的代码,发现了一个错误:

$ ~/OpenMpi/bin/mpiexec  -np 10  ~/NetWorkTest
My rank is 2
My rank is 7
My rank is 0
My rank is 3
My rank is 6
My rank is 8
My rank is 4
My rank is 1
My rank is 5
-------------------------------------------------------
Primary job  terminated normally, but 1 process returned
a non-zero exit code. Per user-direction, the job has been aborted.
-------------------------------------------------------
--------------------------------------------------------------------------
mpiexec detected that one or more processes exited with non-zero status, thus causing
the job to be terminated. The first process to do so was:

  Process name: [[18656,1],2]
  Exit code:    14
--------------------------------------------------------------------------

这份代码是什么问题导致的呢?然后我不小心把  MPF_Finalize() 函数注释掉了,那么就是说明有一个进程先错误返回了。Master 进程捕获到了。

这里反映了一个事实: 集群中如果有一个进程挂掉了,那么整个进程集都会挂掉

加回去 MPF_Finalize() 函数,这个错误就没了

 

转载于:https://www.cnblogs.com/HelloGreen/p/8782790.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值