描述:p137节点,执行mpirun测试mdtest挂死,配置文件:p139 slots=1
strace跟踪
挂死在了poll阶段:
poll([{fd=5, events=POLLIN}, {fd=4, events=POLLIN}, {fd=7, events=POLLIN}, {fd=13, events=POLLIN}], 4, 4294967295Process 4490 detached
根据strace结果,无法分析出原因。
转而查看端口
在p137节点,执行netstat –anp | grep mpi查看mpi建立TCP连接使用的端口为33229,ssh到p139节点,执行netstat –anp | g rep 33229,查看p139节点,监听该端口所用的对端的IP为:172.15.55.167(p137节点的IP),该IP不通,问题原因找到。
解决
将p137节点不通的IP用ifdown命令关闭即可。