转载请注明来源:
http://hi.baidu.com/zarcoder
作者:zarcoder_neu
Email:smallcat2008@gmail.com
阅读说明:
【此种颜色■ 】标识文件内容安装必读:
【此种颜色 ■ 】表示文件名
【此种颜色■ 】表示执行的命令
对于集群的安装首要了解的是安装之后能够达到的管理所属节点的模式,文档所介绍的使用ibm的xcat集群管理软件,使用maui和torque来进行任务调度,使用ganglia来进行集群系统检测,使用mpich来做并行运算环境的一种集群管理模式。
首先需要了解的是,这种架构下集群的工作模式,由管理master节点,来对计算节点进行调度,配置[安装,添加用户等],对使用者提供的接口就是这个 master节点,用户通过master节点提供的ganglia监测来查看集群工作状态,通过登陆master来提交任务,所以初步这个网络拓扑应该已 经有所了解。
即:以master的eth0做为对外接口,eth1与其它计算节点划在一个vlan,在这个vlan中,由master来担当ntp,nfs,nis等server
安装步骤:
安装管理节点,所有软件包
配置网络环境,将master的eth1与其它节点划在一个vlan下
安装xcat
配置服务,ntp,nfs等
准备安装镜像 copycds
使用xcat所提供的管理命令对节点进行安装
安装maui,torque等任务调度工具
安装ganglia检测工具
主节点应安装rrdtool,gmetad,gmond
计算节点只安装gmond
开启httpd服务,安装结束
系统: FedoraCore3
机器: IBM e1350节点机(双Intel xeon 3.0GCPU,超线程,2G内存,37G硬盘)
节点互联交换机:思科3750
相关软件:
xcat-dist-ibm-1.2.0.tgz
xcat-dist-core-1.2.0.tgz
xcat-dist-oss-1.2.0.tar
mpich-1.2.7p1.tar.gz
torque-1.0.1p6.tar.gz
maui-3.2.6p9.tar.gz
ganglia-3.0.4.tar.gz
rrdtool-1.2.23.tar.gz
GotoBLAS-1.15.tar.gz
首先,配置网络环境
在思科3750上,划分划分相应的端口至同一个vlan
安装软件:
关闭不必要的服务
chkconfig --level 0123456 autofs off
autofs reconfig isdn pppoe iptables kudzu rawdevices pxe linuxconf
安装xcat
下载,并解压缩xcat
tar zxvf xcat-dist-core-1.2.0.tgz
tar zxvf xcat-dist-ibm-1.2.0.tgz
tar zxvf xcat-dist-oss-1.2.0.tar
复制到/opt/xcat文件目录下
在/etc/profile文件里添加
然后
source /etc/profile
export XCATROOT=/opt/xcat或者执行/etc/profile.d/目录下的xcat.sh
进入文件目录/opt/xcat/sbin下,执行 ./setupxcat命令
编辑 /etc/man.config文件
添加
MANPATH /opt/xcat/man然后用man site.tab来测试man是否安装成功
拷贝样例配置文件到/opt/xcat/etc目录下
cp /opt/xcat/samples/etc/* /opt/xcat/etc
修改,下列文件
apc.tab mac.tab mp.tab nodehm.tab nodemodel.tab noderes.tab passwd.tab postscripts.tab snmptrapd.conf
cisco.tab mpa.tab networks.tab nodelist.tab nodepos.tab nodetype.tab postdeps.tab site.tab
再次执行
/opt/xcat/sbin/setupxcat
然后修改/etc/hosts
# Do not remove the following line, or various programs然后修改/etc/sysconfig/network-scripts/ifcfg-eth0
# that require network functionality will fail.
127.0.0.1 localhost
210.30.193.10 c3750stk
210.30.193.14 rsa1
210.30.193.15 rsa2
210.30.193.19 rsa3
210.30.193.20 rsa4
10.0.10.110 node10
222.222.222.153 cluster3.hpc
10.0.10.9 master3 master3.hpc
vim /etc/sysconfig/network-scripts/ifcfg-eth0
DEVICE=eth0vim /etc/sysconfig/network-scripts/ifcfg-eth1
BOOTPROTO=static
IPADDR=222.222.222.153
NETWORK=222.222.222.128
BROADCAST=222.222.222.255
NETMASK=255.255.255.128
ONBOOT=yes
TYPE=Ethernet
然后执行DEVICE=eth1
BOOTPROTO=static
IPADDR=10.0.10.9
NETMAST=255.255.0.0
ONBOOT=yes
TYPE=Ethernet
/opt/xcat/sbin/makedns master
检测一下,
host node10
host master3
查看是否刚才配置的/etc/hosts里面的数据
cp /opt/xcat/rc.d/atftpd protmap snmptrapd syslog /etc/rc.d/init.d/
cp /opt/xcat/samples/syslog.conf /etc
touch /var/log/pipemessages
service syslog restart
chkconfig snmptrapd on
service snmptrapd start
vim /etc/exports
/install *(ro,async,no_root_squash)vim /etc/ntp.conf
/opt/xcat 10.0.10.0/24(ro,no_root_squash)
/usr/local 10.0.10.0/24(ro,no_root_squash)
/home 10.0.10.0/24(rw,no_root_squash
chkconfig nfs on
service nfs start
exportfs -ar
exportfs
vim /etc/ntp.conf
chkconfig ntp on
service ntp start
运行命令
/opt/xcat/sbin/makedhcp --new --allmac
vim /etc/dhcp.conf
其实只用留下外网和内网两个网段就可以了,其余网段可以删除掉
运行命令
/opt/xcat/sbin/gennis
/opt/xcat/sbin/gensshkeys root
下载 安装光盘 FC3-disk[1-4].iso
copycds FC3-disk*
这个命令执行需要一段时间
等所有的命令执行结束之后
执行命令 /opt/xcat/stage/mkstage
然后就可以nodeset node10 install ,然后重新启动node10,就可以看到node10在安装了
对于需要所有程序安装的话
修改
/opt/xcat/install/rhfc3/x86/base/compute.tml
#end of section这种安装是占用节点空间的,默认安装之后,只有gcc33(应该是3.3版本的吧),没有命令gcc,所以,需要安装编译东西的时候是没有办法编译的
#
%packages --resolvedeps
@ Network Servers #修改为Everything
@ System Tools
@ X Window System
@ Legacy Software Development
办法就是给gcc33做一个连接 ln gcc33 gcc,这样就可以编译了
作业调度管理的安装
需要文件
torque-1.0.1p6.tar.gz maui-3.2.6p9.tar.gz
安装
/opt/xcat/build/maui/mauimakeer maui-3.2.6p9.tar.gz
/opt/xcat/build/torque/torquemakeer torque-1.0.1p6.tar.gz
安装之后测试一下
genpbs compute ,showq,pbstop如果命令不能运行
在/etc/profile里加入
export PATH="/usr/local/pbs/i686/bin/:$PATH"添加用户,首先建立一个组staff
addclusteruser
然后一步一步写下来就可以了,group写为staff就可以了,目录写在/home下面
addclusteruser之后,需要用pushuser compute [USERNAME]来把用户下放到各个节点
安装ganglia监控软件
所需要软件
rrdtool-1.2.23.tar.gz
ganglia-3.0.4.tar.gz
安装rrdtools
tar zxvf rrdtool-1.2.23.tar.gz
cd rrdtool-1.2.23
./configure
make
makeinstall
安装监控
主节点安装:
tar -xzvf ganglia-3.0.4.tar.gz
cd ganglia-3.0.4
./configure CFLAGS="-I/usr/local/rrdtool-1.2.23/include" CPPFLAGS="-I/usr/local/rrdtool-1.2.23/include" LDFLAGS="-L/usr/local/rrdtool-1.2.23/lib" --with-gmetad --enable-gexec
make
make install
然后将gmetad.init文件拷贝到 /etc/init.d/
cp ganglia-3.0.4/gmetad/gmetad.init /etc/init.d/gmetad
cp ganglia-3.0.4/gmetad/gmetad.conf /etc/gmetad.conf
chkconfig --add gmetad
修改/etc/gmetad.conf文件:
data_source "Cluster2" 10.0.10.116 10.0.10.115启动gmetad服务
service gmetad start
查看
service gmetad status
如果启动有问题,手动创建目录/var/lib/ganglia/rrds/
如果还不启动:
/sbin/route add -host 239.2.22.71 dev eth1
如果还有问题,修改/etc/gmetad.conf文件,
setuid_username "root"
在安装文件夹下,进入 $GANGLIAROOT/gmond/
gmond –t > /etc/gmond.conf
cp gmond/gmond.init /etc/init.d/gmond
chkconfig --add gmond
修改gmond.conf文件
cluster {注意,这个name一定要与上面的那个datasource 后面的字符串相同
name = "Cluster2"
.......
}
在其它计算节点安装:
不需要安装rrdtool
只需要
tar zxvf ganglia-3.0.0.tar.gz
cd ganglia-3.0.4
./configure
make
make install
cd gmond
gmond –t > /etc/gmond.conf
cp gmond/gmond.init /etc/init.d/gmond
chkconfig --add gmond
修改gmond.conf文件
cluster {启动服务gmond,
name = "Cluster2"
.......
}
service gmond start
service gmond status
如果不启动,添加一条路由
/sbin/route add -host 239.2.11.71 dev eth0
安装web界面
cp -a ganglia-3.0.4/web /var/www/html/ganglia
修改/etc/http.d/conf/httpd.conf文件
将DocumentRoot修改为/var/www/html/ganglia
修改DirectoryIndex index.php index.html index.html.var
对于ganglia的安装,要注意的几个地方:
组播地址 在文档里面就是那个 239.2.11.71
data_source的名字
serivce httpd start
然后
http://serverip/
就可以看到监控界面
相关主页连接:
ganglia:http://ganglia.info/
x-cat:http://xcat.org/