在上一篇中我们介绍了 caput 中的 memh5 模块,下面我们将介绍一个建立在 mpi4py 基础之上的有用工具 mpipool,允许我们非常方便地将一个函数并行地应用到一系列数据上。
下载与安装 mpipool
前往 https://github.com/adrn/mpipool 下载 mpipool。可以直接下载 .zip 格式的压缩包,并解压,或者使用 git 将该软件 clone 到本地:
$ git clone https://github.com/adrn/mpipool.git
进入软件顶层目录,使用以下命令进行安装:
$ python setup.py install [--user]
使用 mpipool
mpipool 软件包提供了 MPIPool 类,其定义及主要方法接口如下:
class MPIPool(object)
MPIPool 类。
__init__(self, comm=None, debug=False, loadbalance=False)
MPIPool 类初始化函数。参数 comm
如果非 None,则应该是一个有效的 mpi4py 通信子对象,否则使用 MPI.COMM_WORLD,debug
如果为 True,会输出很多执行过程信息,loadbalance
如果为 True,当 task 的数目比 worker 进程的数目多时,会首先给每个 worker 进程分配一个 task,然后只要某个 worker 进程完成了其 task,则会给其分配一个新的 task,直到所有的 task 都被分配完为止;如果为 False,则会将所有的 task 按照一种循环的方式分配给各个 worker 进程,此时所有 task 完成的时间会由计算最慢的那一个 worker 进程决定。
is_master(self)
master 进程(rank 为 0)会返回 True,worker 进程(所有其它进程)会返回 False。
wait(self)
worker 进程调用该方法后会在一个循环中等待 master 进程发送过来的指令并完成相应的动作。具体来说,worker 进程如果收到 master 进程发送过来的一个函数,则会用该函数替换其自身将要作用到 task 上的函数,如果收到一个 task,则会将函数作用到该 task上得到计算结果,如