超级计算系统Beowulf之Oscar安装文档
作者:cn2002     发表时间:2002/12/25 01:44pm
目的在Linux上的超级计算系统我所知道的有四个OpenMosix,EnFuzion,Oscar,Sycld 其中
后两个是Beowulf系统中的一部分,如果目的是大规模的并行运算,OpenMosix由于机制原
因是被最先排除的,EnFuzion是基于TurboLinux上的一种并行运算协调机制,它不同节点
之间的数据是分开的,不相同的。果所要完成的任务的数据相互之间有非常紧密的连系En
Fuzion就不太方便了,所以主要就是要从Beowulf系统选一个,这次首先试用Oscar,主要
原因是它是一个开放源代码的系统,这份文档源于Khoa N. Nguyen安装文档,我将会把原
文件附上,下面是安装过程
设你所要作的Beowulf有五个点,并且全部使用了3Com网卡.
首先安装RedHat 7.2作为主节点(我装的是Adv Server 2.1,好象也可以,但比较复杂,
最好用7.2,8.0是不可以的!,血的教训!)
注:安装时如有条件一定要选择全部安装,要不到以后的安装中会向你要很多包
,名字如果能对上到好,向lib包,名字都对不上的,就没办法了!
安装时计录好IP,不要配置或起动防火墙
从http://oscar.sf.net/下载
OSCAR,可我没找到,我是从http://belnet.dl.sourceforge.net/sourceforge/oscar/osc
ar-1.3.tar.gz下载的OsCar
在安装完服务器以后在根下建立目录
/tftpboot/rpm后要将所安装盘前两张上的Redhat/RPMS内所有的RPM文件全拷进
.
设定好网络,最主要的是在hosts中加入所要设定的所要作计算机的IP及主机名
解开oscar安装包
以root运行
./install_cluster eth0 (eth0是服务器主机网络卡)
下面才是重点!script运行会有一些问题很多包因为种种(种种 种种)原因无法安装你要自
己一一解决,有的没有lib、有的是已装了旧包无法成功升级.....没有安装成功的包会报
出来(我用的Adv server 2.1,不知道在7.2上是不是就没有问题。后注:当然没问题!!)当
所有的包安装正常后会起动一个GUI如下
先定义客户端.(Define OSCAR Clients):
主机名称Domain name = cluster
客户机名称定义名Base name = oscarnode
客户机数量Number of Hosts: 4 (since we have 4 clients nodes)
(客户机主机名称会被定义为主机定义名+第几号机)
?????Starting number: 2 (since 10.0.2.1 is dedicated to the
Master)
起动IP(第一台客户的IP)Starting IP: 10.0.2.2
Subnet Mask: 255.255.255.0
服务器的子网Default Gateway: 10.0.2.1 (the Master node)
网络设置(Setup Networking Step:)
? 制作自动安装的软盘,在控制台输入mkautoinstalldiskette,如不知如何用可以see
help
? 这是分配二个实际IP给客户端,是DHCP服务器,将IP发送到所有服务器,另外一个是由
自动安装盘从DHCP服务器中取得的,其它都由自动生成的安装盘设定,
?local.cfg 例:
HOSTNAME=oscarnode5 #节点名
DOMAINNAME=cluster#主机名
DEVICE=eth0#网络设备
IPADDR=10.0.2.5#IP
NETMASK=255.255.255.0#mask
NETWORK=10.0.2.0#???
BOADCAST=10.0.2.255
GATEWAY=10.0.2.1
GATEWAYDEV=eth0
IMAGESERVER=10.0.2.1#起动Image机IP
? 每一个客户都有自己的网络配置,配置文件是在主机/etc/local.cfg,每配置一个新的
客户就对文件进行基本的更改,更改后用
mkautoinstalldiskette –config=/root/local.cfg
建立所设定的客户机的自动安装盘,自动安装盘在起动后会自动设定和安装客户机的系统
。
? 所有的交换机硬件地址都要从管理器中收集,单击“Collect MAC addresses” 会自动
收集所有已连接客户机的MAC地址或是在平时,每个客户在起动安装时会自动将MAC地址提
交到主机
?如果MAC管理器不能自动采集到客户机的MAC地址,则可以运行
mksimachine –U –name=$machinename –MAC=$macaddress (-U is for update).
更新MAC地址,要列出原有的地址用 -L参数 (mksimachine –L)
注:在此之后主,安装工作大体完成,你需要运行一个例子运行一个程序来确定运算能
力的分配。
? 所有的应用都只能的用户user下运行,不能在root下运行。
? 在图形介面中,如果击“Testing Cluster”并且安装时所有的文件都被安装,则会自
动以user用户运行试验程序
? 以用户user进入, 运行试验脚本,
*注: 按次序使你的服务起动,你要增加你自已机器的定义在每个节点,除了服务机节点
这样的一行要加在每台客户节点的 /etc/hosts文件
127.0.0.1 localhost.cluster localhost
#cluster is the domain name for all our slave nodes
III. 集群操作与SSH
确认安装了telnet-server,如果没有安装运行
rpm –ivh /tftpboot/rpm/telnet-server*
安装telnet服务,OSCAR 已安装了ssh服务, 可以连接每台机器。设定每台客户与主机相
连,这样每客户只能和服务器相连,只有服务器能和外界相连
(这一部分不太明了,或找不到资料,附上原文,Who能帮一下?)
*注: 所有的用户脚本都存放在oscar-1.2.1rh72/scripts目录下
*增加一个新用户进行PBS/PVM/MPI的test:
? 只能建立root用户以下的用户。
?在/root/oscar-1.2.1rh72/scripts目录下运行oscar_wizard起动一个图形工具,选择安
装PBS/PVM/MPI连接并测试,如果连接不存在,则系统自动新建一个,并让你更改口令
? 一个新的用户及目录 OSCAR_test被建立后,以OSCAR_test用户进入,并到用户主目录
? 运行 ./test_install script, 输入有多少客户机和每机有多少CPU。
?如果全部正常,就会出一个“SUCCESSFUL”.
*测试服务器与客户机的连接用/root/oscar1.2.1rh72/scripts/ping_clients
*起动图形管理安装介面用/root/oscar-1.2.1rh72/scripts/oscar_wizard
IV. 安装并使用MPI
*注:OSCAR安装文件中已自带了MPICH和MPI-LAM安装包.
*转换MPI-MPICH或MPI-LAM在OSCAR 1.3 中非常简单。
?需要运行MPI-LAM,在$HOME/.bashrc文件增加运行
. /etc/profile.d/mpi-01lam.sh
即可
+运行LAM,只要在运行
/opt/lam-6.5.6/bin/lamboot
/opt/lam-6.5.6/bin/lamhalt
+如更换到MPI-MPICH: 在$HOME/.bashrc文件中增加
. /etc/profile.d/mpi-01lam.sh
重新进入一下,即可。
? 下载 mpich-1.2.4.tar.bz2和pm2.tar.bz2
可以从以下http://www.ens-lyon.fr/~mercierg/mpi.html 下载
1.
OSCAR需要增为SSH在其它节点上增加一个用户,否则在rsh和rlogin时会出现“Permissio
n denied”在用户主目录更改.rhosts file和/etc/pam.d/rlogin file.
-.rhosts要加入所有节点及主机名称
例:
oscarnode1
oscarnode2
oscarnode3
oscarnode4
oscarnode5
更改/etc/pam.d/rlogin文件将
/lib/security/pam_rhosts_auth.so
这行移到最前行
-打开rsh或rlogin要在/etc/xinetd.d/rsh和/etc/xinetd.d/rlogin中设置“disable=yes
”为 “disable=no”
主要就这些了。Who有其它问题或观点请帮忙提一下,可以连系furanger@sina.com或在这
发一下,再用一段我会把文档重新整理一下,有问题我会写进去。