高性能计算 with xcat

转载请注明来源:
http://hi.baidu.com/zarcoder
作者:zarcoder_neu
Email:smallcat2008@gmail.com
阅读说明:

【此种颜色■ 】标识文件内容
【此种颜色 】表示文件名
【此种颜色■ 】表示执行的命令
安装必读:
     对于集群的安装首要了解的是安装之后能够达到的管理所属节点的模式,文档所介绍的使用ibm的xcat集群管理软件,使用maui和torque来进行任务调度,使用ganglia来进行集群系统检测,使用mpich来做并行运算环境的一种集群管理模式。
     首先需要了解的是,这种架构下集群的工作模式,由管理master节点,来对计算节点进行调度,配置[安装,添加用户等],对使用者提供的接口就是这个 master节点,用户通过master节点提供的ganglia监测来查看集群工作状态,通过登陆master来提交任务,所以初步这个网络拓扑应该已 经有所了解。
     即:以master的eth0做为对外接口,eth1与其它计算节点划在一个vlan,在这个vlan中,由master来担当ntp,nfs,nis等server
安装步骤:
     安装管理节点,所有软件包
     配置网络环境,将master的eth1与其它节点划在一个vlan下
     安装xcat
     配置服务,ntp,nfs等
     准备安装镜像 copycds
     使用xcat所提供的管理命令对节点进行安装
     安装maui,torque等任务调度工具
     安装ganglia检测工具
           主节点应安装rrdtool,gmetad,gmond
           计算节点只安装gmond
     开启httpd服务,安装结束
系统: FedoraCore3
机器: IBM e1350节点机(双Intel xeon 3.0GCPU,超线程,2G内存,37G硬盘)
节点互联交换机:思科3750
相关软件:
xcat-dist-ibm-1.2.0.tgz
xcat-dist-core-1.2.0.tgz
xcat-dist-oss-1.2.0.tar
mpich-1.2.7p1.tar.gz
torque-1.0.1p6.tar.gz   
maui-3.2.6p9.tar.gz
ganglia-3.0.4.tar.gz
rrdtool-1.2.23.tar.gz       
GotoBLAS-1.15.tar.gz                    

首先,配置网络环境
    在思科3750上,划分划分相应的端口至同一个vlan
安装软件:
关闭不必要的服务
     chkconfig --level 0123456 autofs off
     autofs reconfig isdn pppoe iptables kudzu rawdevices pxe linuxconf
安装xcat
     下载,并解压缩xcat
     tar zxvf xcat-dist-core-1.2.0.tgz
     tar zxvf xcat-dist-ibm-1.2.0.tgz
     tar zxvf xcat-dist-oss-1.2.0.tar

     复制到/opt/xcat文件目录下
     在/etc/profile文件里添加
     然后
     source /etc/profile
             export XCATROOT=/opt/xcat
     或者执行/etc/profile.d/目录下的xcat.sh
     进入文件目录/opt/xcat/sbin下,执行 ./setupxcat命令
     编辑 /etc/man.config文件
     添加
            MANPATH /opt/xcat/man
     然后用man site.tab来测试man是否安装成功
     拷贝样例配置文件到/opt/xcat/etc目录下
     cp /opt/xcat/samples/etc/*    /opt/xcat/etc
     修改,下列文件
     apc.tab   
mac.tab mp.tab         nodehm.tab    nodemodel.tab noderes.tab   passwd.tab    postscripts.tab snmptrapd.conf
     cisco.tab mpa.tab networks.tab nodelist.tab nodepos.tab    nodetype.tab postdeps.tab site.tab


     再次执行
           /opt/xcat/sbin/setupxcat
     然后修改/etc/hosts
            # Do not remove the following line, or various programs
            # that require network functionality will fail.
            127.0.0.1               localhost
            210.30.193.10   c3750stk

            210.30.193.14   rsa1
            210.30.193.15   rsa2
            210.30.193.19   rsa3
            210.30.193.20   rsa4

            10.0.10.110    node10
            222.222.222.153 cluster3.hpc
            10.0.10.9       master3 master3.hpc
     然后修改/etc/sysconfig/network-scripts/ifcfg-eth0
     vim
/etc/sysconfig/network-scripts/ifcfg-eth0
           DEVICE=eth0
             BOOTPROTO=static
             IPADDR=222.222.222.153
             NETWORK=222.222.222.128
             BROADCAST=222.222.222.255
             NETMASK=255.255.255.128
             ONBOOT=yes
             TYPE=Ethernet
     vim /etc/sysconfig/network-scripts/ifcfg-eth1
            DEVICE=eth1
            BOOTPROTO=static
            IPADDR=10.0.10.9
            NETMAST=255.255.0.0
            ONBOOT=yes
            TYPE=Ethernet
     然后执行
     /opt/xcat/sbin/makedns master
     检测一下,
                host node10
                  host master3

     查看是否刚才配置的/etc/hosts里面的数据
    
     cp /opt/xcat/rc.d/atftpd protmap snmptrapd syslog /etc/rc.d/init.d/
     cp /opt/xcat/samples/syslog.conf /etc
     touch /var/log/pipemessages
     service syslog restart
     chkconfig snmptrapd on
     service snmptrapd start
    
     vim /etc/exports

            /install *(ro,async,no_root_squash)
            /opt/xcat 10.0.10.0/24(ro,no_root_squash)
            /usr/local 10.0.10.0/24(ro,no_root_squash)
          /home 10.0.10.0/24(rw,no_root_squash
     vim /etc/ntp.conf
     chkconfig nfs on
     service nfs start
     exportfs -ar
     exportfs
     vim /etc/ntp.conf
     chkconfig ntp on
     service ntp start

     运行命令
     /opt/xcat/sbin/makedhcp --new --allmac
     vim /etc/dhcp.conf

     其实只用留下外网和内网两个网段就可以了,其余网段可以删除掉
     运行命令
     /opt/xcat/sbin/gennis
     /opt/xcat/sbin/gensshkeys root

     
     下载 安装光盘 FC3-disk[1-4].iso
     copycds FC3-disk*
     这个命令执行需要一段时间
     等所有的命令执行结束之后
     执行命令 /opt/xcat/stage/mkstage

     然后就可以nodeset node10 install ,然后重新启动node10,就可以看到node10在安装了
     对于需要所有程序安装的话
     修改
     /opt/xcat/install/rhfc3/x86/base/compute.tml
    #end of section
     #
     %packages --resolvedeps
     @ Network Servers #修改为Everything
     @ System Tools
     @ X Window System
     @ Legacy Software Development
     这种安装是占用节点空间的,默认安装之后,只有gcc33(应该是3.3版本的吧),没有命令gcc,所以,需要安装编译东西的时候是没有办法编译的
     办法就是给gcc33做一个连接 ln gcc33 gcc,这样就可以编译了
作业调度管理的安装
     需要文件
     torque-1.0.1p6.tar.gz maui-3.2.6p9.tar.gz
     安装
     /opt/xcat/build/maui/mauimakeer   maui-3.2.6p9.tar.gz
     /opt/xcat/build/torque/torquemakeer torque-1.0.1p6.tar.gz
     安装之后测试一下
     genpbs compute ,showq,pbstop如果命令不能运行
     在/etc/profile里加入
          export PATH="/usr/local/pbs/i686/bin/:$PATH"
    添加用户,首先建立一个组staff
    addclusteruser
    然后一步一步写下来就可以了,group写为staff就可以了,目录写在/home下面
    addclusteruser之后,需要用pushuser compute [USERNAME]来把用户下放到各个节点
安装ganglia监控软件
     所需要软件
     rrdtool-1.2.23.tar.gz
     ganglia-3.0.4.tar.gz

     安装rrdtools
     tar zxvf
rrdtool-1.2.23.tar.gz
     cd
rrdtool-1.2.23
     ./configure
     make
     makeinstal
l
安装监控
     主节点安装:
     tar -xzvf ganglia-3.0.4.tar.gz
     cd ganglia-3.0.4
./configure CFLAGS="-I/usr/local/rrdtool-1.2.23/include" CPPFLAGS="-I/usr/local/rrdtool-1.2.23/include" LDFLAGS="-L/usr/local/rrdtool-1.2.23/lib" --with-gmetad --enable-gexec
    make
      make install

    然后将gmetad.init文件拷贝到 /etc/init.d/
      cp ganglia-3.0.4/gmetad/gmetad.init   /etc/init.d/gmetad
      cp ganglia-3.0.4/gmetad/gmetad.conf   /etc/gmetad.conf
      chkconfig --add gmetad

    修改/etc/gmetad.conf文件:
     data_source "Cluster2" 10.0.10.116 10.0.10.115
     启动gmetad服务
    
service gmetad start
     查看
     service gmetad status

     如果启动有问题,手动创建目录/var/lib/ganglia/rrds/
     如果还不启动:
     /sbin/route add -host 239.2.22.71 dev eth1
     如果还有问题,修改/etc/gmetad.conf文件,
setuid_username "root"
    
     在安装文件夹下,进入 $GANGLIAROOT/gmond/
     gmond –t > /etc/gmond.conf
     cp gmond/gmond.init /etc/init.d/gmond
     chkconfig --add gmond

     修改gmond.conf文件
cluster {
name = "Cluster2"
.......
}
     注意,这个name一定要与上面的那个datasource 后面的字符串相同
在其它计算节点安装:
     不需要安装rrdtool
    只需要
    tar zxvf ganglia-3.0.0.tar.gz
    cd ganglia-3.0.4
    ./configure
    make
    make install
    cd gmond
    gmond –t > /etc/gmond.conf
    cp gmond/gmond.init /etc/init.d/gmond
    chkconfig --add gmond

    修改gmond.conf文件
cluster {
name = "Cluster2"
.......
}
    启动服务gmond,
    service gmond start
    service gmond status

    如果不启动,添加一条路由
    /sbin/route add -host 239.2.11.71 dev eth0

安装web界面
    cp -a ganglia-3.0.4/web /var/www/html/ganglia
    修改/etc/http.d/conf/httpd.conf文件
    将DocumentRoot修改为/var/www/html/ganglia
    修改DirectoryIndex index.php index.html index.html.var
对于ganglia的安装,要注意的几个地方:
    组播地址 在文档里面就是那个 239.2.11.71
    data_source的名字
    serivce httpd start
    然后
    http://serverip/
    就可以看到监控界面

相关主页连接:
ganglia:http://ganglia.info/
x-cat:http://xcat.org/




  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值