目录
MPI 广播和集体通信
我们已经研究了点对点通信,即两个进程之间的通信。本课是集体通讯章节的开始。集体通讯是一种通讯方法,涉及 communicator 中所有进程的参与。这节课我们会解释集体通信以及一个标准的方法 - broadcasting (广播)。
集体通信以及同步点
关于集体通信需要记住的一点是它在进程间引入了同步点的概念。这意味着所有的进程在执行代码的时候必须首先 都 到达一个同步点才能继续执行后面的代码。
在看具体的集体通信方法之前,让我们更仔细地看一下同步这个概念。事实上,MPI 有一个特殊的函数来做同步进程的这个操作。
MPI_Barrier(MPI_Comm communicator)
这个函数的名字十分贴切(Barrier,屏障)- 这个方法会构建一个屏障,任何进程都没法跨越屏障,直到所有的进程都到达屏障。这边有一个示意图。假设水平的轴代表的是程序的执行,小圆圈代表不同的进程。
进程0在时间点 (T 1) 首先调用 MPI_Barrier
。然后进程0就一直等在屏障之前,之后进程1和进程3在 (T 2) 时间点到达屏障。当进程2最终在时间点 (T 3) 到达屏障的时候,其他的进程就可以在 (T 4) 时间点再次开始运行。
MPI_Barrier
在很多时候很有用。其中一个用途是用来同步一个程序,使得分布式代码中的某一部分可以被精确的计时。
想知道 MPI_Barrier
是怎么实现的么?我知道你当然想 😃 还记得我们之前的在发送和接收教程 里的环程序么?帮你回忆一下,我们当时写了一个在所有进程里以环的形式传递一个令牌(token)的程序。这种形式的程序是最简单的一种实现屏障的方式,因为令牌只有在所有程序都完成之后才能被传递回第一个进程。
关于同步最后一个要注意的地方是:始终记得每一个你调用的集体通信方法都是同步的。也就是说,如果你没法让所有进程都完成 MPI_Barrier
,那么你也没法完成任何集体调用。如果你在没有确保所有进程都调用 MPI_Barrier
的情况下调用了它,那么程序会空闲下来。这对初学者来说会很迷惑,所以小心这类问题。
使用 MPI_Bcast 来进行广播
广播 (broadcast) 是标准的集体通信技术之一。一个广播发生的时候,一个进程会把同样一份数据传递给一个 communicator 里的所有其他进程。广播的主要用途之一是把用户输入传递给一个分布式程序,或者把一些配置参数传递给所有的进程。广播的通信模式看起来像这样:
在这个例子里,进程0是我们的根进程,它持有一开始的数据。其他所有的进程都会从它这里接受到一份数据的副本。
在 MPI 里面,广播可以使用 MPI_Bcast
来做到。函数签名看起来像这样:
MPI_Bcast(
void* data,
int count,
MPI_Datatype datatype,
int root,
MPI_Comm communicator)
尽管根节点和接收节点做不同的事情,它们都是调用同样的这个 MPI_Bcast
函数来实现广播。当根节点(在我们的例子是节点0)调用 MPI_Bcast
函数的时候,data
变量里的值会被发送到其他的节点上。当其他的节点调用 MPI_Bcast
的时候,data
变量会被赋值成从根节点接受到的数据。
使用 MPI_Send 和 MPI_Recv 来做广播
粗略看的话,似乎 MPI_Bcast
仅仅是在 MPI_Send
和 MPI_Recv
基础上进行了一层包装。事实上,我们现在就可以自己来做这层封装。我们的函数叫做 my_bcast
,它跟 MPI_Bcast
接受一样的参数,看起来像这样:
void my_bcast(void* data, int count, MPI_Datatype datatype, int root,
MPI_Comm communicator) {
int world_rank;
MPI_Comm_rank(communicator, &world_rank);