下载mpich2-1.0.5p4.tar.gz.

首先说说我遇到的问题,以免大家重蹈覆辙

1需要在安装好mpich2之后再编译程序,否则会出现cannot open shared library..的错误。

2如果还出现cannot open shared library...no file XXX.so的提示,说明在系统的lib里面找不到XXX.so  此时将XXX.so所在路径加入到/etc/ld.so.conf中(注意,不要换行,否则加“/”),然后用/sbin/ldconfig -v更新

3需要用#hostname myhostname(临时),或者echo "myhostname" > /etc/hostname(永久)的方式来修改机器名。


接下来就是具体的安装和配置过程


   Linux下的操作要相对来说麻烦一点, 这个麻烦从安装开始, 呵呵. 我用的系统是CentOS4.4, 装在VMware Workstation里的, 一共装了两个虚拟机, 环境基本上完全一样. 为运行MPI在两台虚拟机都创建了一个用户mpi, 密码也是mpi, home路径也都是/home/mpi, 然后继续都创建了一个目录/home/mpi/mpich2用来作MPI运行环境的安装路径, 一个/home/mpi/mpich2/src来存放编译用的源代码. 然后将源代码包mpich2-1.0.5.tar.gz下载到两台机器上, 都解压缩到/home/mpi/mpich2/src, 然后到/home/mpi/mpich2/src, 指定安装路径,

        ./configure -prefix=/home/mpi/mpich2

        make

        make install

    几分钟后安装完毕. 需要提一下的是, 我曾经试着用root用户来安装MPICH2, 但是安装后好重启系统就出了问题, 所以建议还是另外建个用户来装吧(ubuntu干脆就把root给禁了, 不让你直接用root).

        安装后/home/mpi/mpich2下多出来一些目录和文件, 要比windows, lib是库文件, include是头文件, bin还是程序文件, 所以还是要写到环境变量里, 可以用命令export PATH /home/mpi/mpich2/bin:$PATH, 但我是用root用户直接在/etc/profile最后面加了这么一句export PATH=/home/mpi/mpich2/bin:$PATH, 一劳永逸.

        MPI应用一个管理器来管理运行MPI程序, 这个管理器就是mpd, 但是在正式开始运行mpd前还需要一个基于安全考虑的配置文件, .mpd.conf, 这个文件是要放在运行程序的用户的home目录下, 本例子中就是/home/mpi/.mpd.conf, 而且这个文件只能由这个用户读写, 创建文件的命令是,

        cd $HOME

        touch .mpd.conf

        chmod 600 .mpd.conf

然后在文件中写入这么一行, secretword=***, ***在参与计算的计算机上必需完全一致. 如果是root用户的话, 这个文件应该是/etc/mpf.conf.

       然后, 我们就可以启动mpd管理器了, 直接在控制台下使用mpd命令, 或者是mpd &, mpd在后台运行, 若关闭启动的mpd, 只需要命令mpdallexit即可. 在启动mpd之后就可以运行MPI应用程序了, 执行命令与windows下类似, 如我们仍然是测试一下examples里的cpi程序可以这样来作,

        cd ~/mpich2/examples

        mpiexec -n 1 ./ cpi

参数含义同windows下的单机运行命令. 另外, 启动mpd后还可以用命令mpdtrace来察看当前运行的mpd情况.

SSH配置和多机并行

        MPI的多机并行是用mpdboot来管理启动的, 是由参与计算的其中一台机器通过mpdboot同时启动其他机器上的mpd管理器并运行相应MPI程序的, 所以, 需要赋予运行mpdboot的机器执行其他机器上程序的能力. MPICH2支持通过sshrsh来做到这一点, 其中ssh是默认的, 而且其安全性也优于rsh, 因此, 我在项目中是用的ssh.

       首先, 我们需要修改所有机器上的/etc/hosts文件, 在里面添加上参与计算的机器名和ip地址, 比如本文中有两台机器参加的例子里, hosts文件应当为:

        127.0.0.1 localhost.localdomain localhost

        192.168.10.142 node0

        192.168.10.23 node1

这里的意思是说, 主机名为node0的机器ip地址为192.168.10.142, 主机名为node1的机器ip地址为192.168.10.23.

    当然, 其实这一步也可以跳过, 因为我们也可以在操作过程中直接使用ip地址, 只不过那样不太方便. 另外就是, 有些机器默认情况下第一行可能包括本机的主机名, 比如在ip192.168.10.142node0, hosts文件第一行是

127.0.0.1 localhost.localdomain localhost node0

这样可能会使得mpdboot工作不正常, 所以还是最好给成上面的那种形式.

       第二步是创建ssh密钥, 命令行下:

        #ssh-keygen -t rsa

-t rsa指的是密钥类型, 具体请察看ssh相关资料, 这里不多说. 这样就在当前用户的home目录下生成了一个.ssh目录, 本文中的就是/home/mpi/.ssh.

       第三步, /home/mpi/.ssh下的id_rsa.pub文件拷贝改名为authorized_keys,

        #cp id_rsa.pub authorized_keys

       第四步, 在其他所有机器上进行以下操作.

        #ssh-keygen -t rsa                                            生成.ssh文件夹

        #scp node0IP:/home/mpi/.ssh/* ~/.ssh           拷贝node0上的.ssh文件夹覆盖本地的

       第五步, 在所有机器上建立与自己和所有其他机器的信任连接.

    对每个节点执行

        #ssh node0

        #ssh node1

    根据提示键入yes即可. 然后就可以在不需要用户名密码的情况下通过ssh登陆其他机器了, 比如在node0#ssh node1, 就可以直接进入node1.

       接下来, 在启动mpdboot的机器上创建一个参与计算的host列表文件, 如文件mpd.hosts, 每行是一个主机名, 创建过程如

        #cd ~

        #touch mpd.hosts

        #vi mpd.hosts

        nod0

        node1

现在, 就可以启动运算集群了

        #mpdboot -n 2 -f mpd.hosts

-n表示要启动的机器个数, 一般是不大于mpd.hosts文件中的机器数, 比如本文中的例子就是两台机器. 这样, 列表中的机器就会启动其本机上的mpd管理器.

       然后, 就可以开始运行MPI程序, 进行运算了, windows下一样, 程序需要放在每台机器上的相同位置(如果用NFS就只需在一台机器上放置程序, 其他机器作映射就行), 比如都是程序/home/mpi/mpich2/examples/cpi, 在运行mpdboot 的结点机器上:

        #mpiexec -n 2 /home/mpi/mpich2/examples/cpi

-n表示要启动的进程个数, 一般是不大于mpd.hosts文件中的机器数(或者cpu核心数?偶用的机器就是双核的了, 所以单机的时候双进程比单进程效率好很多, 但是三进程就不行).

        Mpd在运行过程中, 可以通过mpdtrace显示参与计算的机器名, mpdtrace –l则是显示机器名以及其端口

遇到的问题及解决方式: