#History 2010/05/04 First Release _zhong
#History 2010/06/02 Second Release _zhong
四月刚开始的一周忙于学习Linux很投入,尽管经常遭受打击,但依旧信心高涨啊,劲头足的狠幺。4月九号我同学让我去考NA去,无奈放下所有的一切花了我三天的时间备考,那三天给累求死了没日没夜的看啊,还好强势通过...这一周就这么荒废过去了,接着我同学的同学的导师找人给做集群系统(shun软件实现),刚好我知道点Linux系统及服务,哎咱不自量的去了,当时也满怀信心啊,可不曾想,花了我3天的时间硬是没整好(老师给了我6年前的两个软件,怎么也搜不出相关资料,就连官方也不再支持!),没则只好试试开源软件了...毕竟商业软件都是烧钱的!刚开始为了测试并行性,就用了mpich这个开源软件,还行挺顺利实现了。接着就开始尝试安装他们实验室的并行计算软件,搜了很长时间加之个人努力终于也很快的予以实现了,因为实在虚拟机中进行的实验,整个过程相当耗时(本子的主频太低了,经常卡主),所以也就没考虑这个系统的效率究竟能达到什么程度,虚拟机缺乏某种意义。接下来把相关代码贴出来:
Mpich can do well as having been showed below(Is this called Parallel computing ?):
Process 2 on wuhz.local.com //ipadd:192.168.184.132,
Process 3 on wuhz.com //ipadd:192.168.184.131, They are collaborating !
…
…
(我自己的图都不让放)
Haha!As follows,the server(192.168.184.131) now is coping with the slave node(192.168.184.132).That means we have successed!
(我自己的图都不让放)
1.装red hat enterprise Linux 5.4 (X86_64)
2.开启相关服务:
fsh,rlogin,rexec //如有必要移除kbr5-workstation(rpm -e kbr5-workstation.rpm)
nfs
安装:
2.1.查看rsh包
2.2.rpm -ivh rsh*.rpm
2.3.配置rsh:1.vi /etc/xinetd.d/rsh
=> vi /etc/xinetd.d/rlogin
vi /etc/xinetd.d/rexec //将disable=yes => disable=no
然后重启xinetd进程 //service xinetd restart
2.echo "rsh" >> /etc/securetty
=> echo "rlogin" >> /etc/securetty
echo "rexec" >> /etc/securetty
3.vi /etc/hosts.equiv //加上所有节点名(包括服务器自己),最好是
=> 主机名加上ip地址
例: wuhz.com
wuhz.local.com
192.168.184.131
192.168.184.132
4.vi ~/.rhosts //加上所节点名(包括服务器自己),最好是主
=> 机名加上ip地址
或者:echo "192.168.184.131 root" >> ~/.rhosts
例:
192.168.184.131 wuhz.com
192.168.184.132 wuhz.local.com
5.vi /etc/hosts //ipaddss hostname(所有节点)
=> //起到域名解析的作用(DNS)
//可以注释127.0.0.1 (先不注释)
6.vi /etc/pam.d/rsh //auth required pam_rhosts_auth.so
=> 改成
auth sufficient pam_rhosts_auth.so
//如果不成共请注释
auth required /lib/security/pam_securetty.so
//所有节点
/rlogin //注释 auth required pam_securetty.so
/rexec //不做修改
7.rpm -e kbr5-workstation.rpm
2.4.开启nfs服务:
1.vi /etc/exports //在主节点上
=> /home/msi *(rw,async)
/opt/hpmpi *(rw,async)
2. service portmap status/start
service nfs start //用exportfs 查看
3.setup
=> 开启nfs服务 //使其能够开机自启
4.在客户端 vi /etc/fstab
=> 192.168.184.131(主节点):/home/msi /home/msi nfs defaults 0 0 192.168.184.131(主节 点):/opt/hpmpi /opt/hpmpi nfs defaults 0 0
3.关闭selinux,关闭firewall(可以按照相应的防火墙规则,自己定啥)
4.安装hpmpi //rpm -ivh hpmpi*
//默认安装在/opt/hpmpi中,
5.在所有节点上新建用户msi //密码一定要一致!
6.安装Meterials Studio x.x,目录是/home/msi,tmp目录是 /home/msi/tmp
//用普通用户 msi 进行安装
6.1.mount -o loop xx.iso /mnt/cdrom
//4.2以后的material studio支持Gaussian,如果要装Gaussian,最好在装MS前安装,这样设置容易一些。
6.2.cd /UNIX/ ./Install --type cluster
6.3.选择安装模块
6.4.选择License管理软件的安装目标目录,输入两个回车即可
6.5.切记安装过程中要开启Gateway服务!
6.6.复制你的license文件到/home/msemsi/Accelrys/License_Pack/licenses (目录要与安装License管理软件的目录相一致)
//msi.lic 网上牛人制作的11kb的
//修改msi.lic 中的this-host to 主节点的 hostname
//将Crack目录中的msi.lic文件拷贝至LicensePack/Licenses/
并进入 LicensePack/linux/bin
运行 ./lp_install LicensePack/Licenses/msi.lic
会看见check out succeed
7.实现并行的配置
7.1.vi ~/.rhosts
=> //加上所节点名(包括服务器自己),最好是主机名加上ip地址
或者:echo "192.168.184.131 root" >> ~/.rhosts
7.2.vi xx/MaterialsStudio42/MPICH/share/machines.LINUX
ipadd1(hostname):4 //4代表cpu 的核数(单节点的)
ipadd2(hostname):4 //4代表cpu 的核数
7.3.修改home/msemsi/Accelrys/MaterialsStudio42/Gateway/root_default/dsd/conf下两个文件gw-info.sbd gwparams.cfg中的cpucorestotal= x, 否 则在客户机上的job_control 中只能看到安装节点上的cpu
7.4.还是这两个文件里,mpicommand的那一行,如果有kerberos,则要把kerberos删除,这一项应该是这样的
/opt/hpmpi/bin/mpirun -e MPI_REMSH=/usr/bin/rsh -cpu_bind=v -prot -f APPFILE
7.5.最后要确保所有Accelrys目录下的文件都能被用户msemsi操作,因为在安装时有时用到root 用户,不注意的话有可能使得有些文 件只能被root操作。可以到Accelrys目录下,用chmod 771 * -R和chown msi:root * -R来更改读写权限以及文件的所有者。
7.6.开启getway...//palce a copy of
/home/wang2/Accelrys/MaterialsStudio50/etc/Gateway/msgetway_control_18888
in /etc/rc.d/init.d/msgetway_control_18888and run : /sbin/chkconfig --add msgetway_control_18888
//打MS43的补丁,解压MS43Update1.tar.gz,将其中的Linux_x86_64目录中的dmol3.exe
Ddmol3_mpi.exe拷贝到Accelrys/MaterialsStudio43/bin中即可。
或者
root权限下
cp Accelrys/MaterialsStudio43/etc/Gateway/msgateway_control_18888 /etc/init.d
chkconfig --add msgateway_control_18888
//7.7有可能需要启动 lic_server 方法如下:
编辑或修改: node1 上 /home/msi/.cshrc 文件加入下面两行:
source /home/msi/软件安装目录/Licensepack/etc/lp_cshrc
lp_server -s 保存即可
哦了,理论上可进行并行计算了(事实是能进行了)。
So enjoy it!
问题:
5月2号正式给提交了,但并行效果着实吓了一跳!不是太块相反是太慢了,网络交换的数据太多,网络经常满负荷运转,且网络交换速度太慢只有不到300kB/s!之后我将xen模块加进去,尽管网络交换速度提高到了3M/s,但并行计算效果依旧很低!网上相关资料太少,因为某些原因没有再深入研究。如果你有好的建议请一定不吝赐教!(哎?几个插图死猫哪去了?!)
追加:
后来我想好象是把xen这个虚拟模块当成module了,并没有编译进内核,就是说当时的情形是:进入的el5xen,但并没有调用xen等相关模块(似乎可以自动按需加载的啊?因为装系统时没有输入订阅号,所以就没有虚拟这一选项了, xen模块是在后来以rpm包形式安装的),也许是这出现问题了?
追加:
06/02
再后来我了解到症结的所在:服务器是双网卡的,这样就需要针对每个网卡进行配置,把他们都配置成单个的node,这样便能解决并行效率的低下了...