MPICH2安装、配置总结和问题

据说,新版的mpich2已经默认是用hydra作为进程管理了,当时我用的是mpd,关于hydra了解的不多,欢迎多指教~~   

联想深腾1800集群,64位CentOS 系统,5.4版本,root帐号(非root 帐号的配置可能不同,mpd.conf文件)

一、确保各结点相互之间访问无需输入密码:

[root@c0104 ~]# ssh-keygen -t rsa #然后一路回车

[root@c0104 ~]#cp .ssh/id_rsa.pub .ssh/authorized_keys

[root@c0104 ~]#chmod go-rwx .ssh/authorized_keys


    在每个节点重复一遍。收集所有节点下的authorized_keys文件,合并为一个authorized_keys,scp命令分发到每个节点的~/.ssh目录下。

    试着在某一节点上登录所有节点(包含自身),ssh noden,则在$HOME/.ssh/下生成一个名为known_hosts的文件,里面放着访问该主机的身份指纹,也在各个节点上将known_hosts文件作同样的拷

贝。

二、安装MPICH2

    这一步没什么好说的,我在所有的结点上都安装了MPICH2,没有用NFS。

#tar zxvf mpich2-1.0.2p1.tar.gz#./configure
#make
#make install

OK!whicm mpd ,whicm mpdtrace检测一下.

三、配置

[root@c0104 ~]#  touch /etc/mpd.conf 

然后vi /etc/mpd.conf,内容为secretword=something #something随便换成什么字符都行

[root@c0104 ~]# chmod 600 /etc/mpd.conf

scp 命令分发到其它结点的~/目录下

[root@c0104 ~]#  vi mpd.hosts  # 我准备在4号结点测试

内容:

c0104 #集群中各结点名,一行一个

c0106

c0108

c0110

四、测试

[root@c0104 ~]#  mpdboot -n 4 -f mpd.hosts # 参数-n表示要启动的结点数,-f表示包含结点名的文件:mpd.hosts

[root@c0104 ~]# mpdtrace  #查看已启动的结点 ,加上-l参数,还能查看端口号

[root@c0104 ~]# mpicc cpi.c –o cpi

或者g++ test.cpp –I /usr/include/mpich2 –lmpi –o test     # mpicxx test.cpp -o test更好用一些

[root@c0104 ~]# mpiexec –n num ./cpi
  
[root@c0104 ~]# mpdallexit                      #所有结点退出


五、纠结的问题

1、遇到 no_port 这种错误,可能是mpd.conf文件的权限问题,执行chmod 600 mpd.conf可解决,其它可把错误信息帖到google搜索。
2、错误信息:

[root@c0104 ~]# mpdboot -n 3 -f mpd.hosts
mpdboot_c0104_0 (mpdboot 406): error trying to start mpd(boot) at 2 {'host': 'c0108', 'ncpus': 1, 'ifhn': ''}; output:
   mpdboot_c0108_2 (err_exit 415): mpd failed to start correctly on c0108
     reason: 2: unable to ping local mpd;
   invalid msg from mpd :{}:
   ** mpd may have disappeared, perhaps due to mismatched secretwords
   ** see msgs logged in syslog and /tmp/mpd2.logfile* on c0108
   last printed output from mpd before becoming a daemon:
   41819
  
   mpdboot_c0108_2 (err_exit 421):   contents of mpd logfile in /tmp:
        logfile for mpd with pid 4894
        c0108_41819: conn error in connect_rhs: No route to host
        c0108_41819 (connect_rhs 602): failed to connect to rhs at 192.168.1.7 49518
        c0108_41819 (enter_ring 513): rhs connect failed
        c0108_41819 (run 215): failed to enter ring
mpdboot_c0104_0 (err_exit 415): mpd failed to start correctly on c0104

可能的解决方法:禁用防火墙和SELinux

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值