云计算从基础架构到最佳实践

最新推荐文章于 2023-12-25 13:18:36 发布

shursulei

最新推荐文章于 2023-12-25 13:18:36 发布

阅读量1.1k

点赞数

分类专栏：云计算文章标签：云计算基础架构并行计算

本文链接：https://blog.csdn.net/shursulei/article/details/53941352

版权

云计算专栏收录该内容

1 篇文章 0 订阅

订阅专栏

并行计算

MPI简介
多线程是一种便捷的模型，其中每个线程都可以访问其它线程的存储空间。因此，这种模型只能在共享存储系统之间移植。一般来讲，并行机不一定在各处理器之间共享存储，当面向非共享存储系统开发并行程序时，程序的各部分之间通过来回传递消息的方式通信。要使得消息传递方式可移植，就需要采用标准的消息传递库。这就促成的消息传递接口(Message Passing Interface, MPI)的面世，MPI是一种被广泛采用的消息传递标准[1]。
与OpenMP并行程序不同，MPI是一种基于消息传递的并行编程技术。消息传递接口是一种编程接口标准，而不是一种具体的编程语言。简而言之，MPI标准定义了一组具有可移植性的编程接口。各个厂商或组织遵循这些标准实现自己的MPI软件包，典型的实现包括开放源代码的MPICH、LAM MPI以及不开放源代码的Intel MPI。由于MPI提供了统一的编程接口，程序员只需要设计好并行算法，使用相应的MPI库就可以实现基于消息传递的并行计算。MPI支持多种操作系统，包括大多数的类UNIX和Windows系统。
3.1.1如何实现MPI
MPI是一个标准。它不属于任何一个厂商，不依赖于某个操作系统，也不是一种并行编程语言。不同的厂商和组织遵循着这个标准推出各自的实现，而不同的实现也会有其不同的特点。MPICH是影响最大、用户最多的MPI实现。目前可下载的最新的MPICH软件包为MPICH1.2.7pl和2008年2月15日发布的MPICH 2-1.0.7测试版(我使用的是MPICH 2-1.0.6pl)，在http://www.mcs.anl.gov/research/projects/mpich2/index.php可以下载到，分别有支持UNIX和Windows的32位和64位版本。
3.1.2 MPI程序的特点
MPI程序是基于消息传递的并行程序。消息传递指的是并行执行的各个进程具有自己独立的堆栈和代码段，作为互不相关的多个程序独立执行，进程之间的信息交互完全通过显示地调用通信函数来完成。
3.2 MPICH的安装和配置
我使用的MPICH2安装文件是mpich2-1.0.6p1-win32-ia32.msi，在Windows下安装MPICH2比较简单，但是要有Microsoft .NET Framework 2.0的支持。安装基本上只要单击“Next”即可。在安装过程中会提示输入进程管理器的密码，这个密码被用来访问所有的程序，这里使用的密码为admin。
安装完成后，安装目录下的include子目录包含了编程所需要的所有头文件，lib子目录包含了相应的程序库，而子目录bin则包含了MPI在Windows下面必须的运行程序。运行时需要的动态链接库被安装在了Windows系统目录中。在Windows平台下可以使用Microsoft Visual Studio来开发MPI程序，下面举例说明。
首先，新建一个Win32控制台项目，然后将MPICH2安装目录下的include子目录加入到头文件目录中。
依次打开“项目——属性——配置属性——C++——常规——附加包含目录”中加入所有的路径。
这里需要注意的是（1）路径必须指向头文件所在的子文件夹，而不能直到父文件夹就结束（2）每个路径不需要加上双引号，输入了之后，vs2008会自动加上双引号，如果自己加可能vs2008无法识别双引号（3）如果是多个路径，路径直接用“；”隔开。B.[菜单]“工具->选项->项目和解决方案->C++ 目录”，选择对应平台，然后添加所需“包括文件”目录。
除了头文件以外，也需要告诉编译器，类在哪里实现的，即封装类的链接库在哪里，这样程序才能执行工具包中的函数。

再用相同的方法将MPICH2\lib加入到库文件目录中，如图3-2。
A.依次打开“项目——属性——配置属性——链接器——常规——附加库目录”中加入链接库的路径。B.[菜单]“工具->选项->项目和解决方案->C++ 目录”，选择对应平台。
为了避免名字冲突，需要在预编译头文件stdafx.h中加入#inlcude mpi.h语句。现在就可以在主程序文件中编写MPI程序了，MPI的开发环境配置完毕。
3.3 在Windows下如何运行MPI程序
我所进行的MPI程序的开发均是在Windows平台下，使用Visual Studio 2005 + MPIEXEC wrapper 进行的，首先用一个简单的Hello World 程序说明运行环境的配置。
按照上一小节介绍配置好开发环境之后，在VS 2005中新建立一个Win32 控制台项目，并取名MPI1，在MPI1.CPP文件中输入下面的程序。在项目属性的“配置属性”－>“常规”项中的“字符集”设置为“未设置”，如图3-3所示。
例3_1
int _tmain(int argc, _TCHAR* argv[])
{ int rank, size;
MPI_Init(&argc, &argv);
MPI_Comm_rank(MPI_COMM_WORLD, &rank);
MPI_Comm_size(MPI_COMM_WORLD, &size);
printf(“Hello World from thread %d of %d\n”, rank, size);
MPI_Finalize();
return 0;
}
这个程序比较简单，在函数MPI_Init()和MPI_Finalize()之间是程序并行执行的地方，MPI_Init()、MPI_Comm_rank()、MPI_Comm_size()和MPI_Finalize()，这四个函数是MPI中最重要和最常用的函数。下面分别说明：
图3-3 配置项目属性
（1） MPI_Init和MPI_Finalize
MPI_Init用来初始化MPI执行环境，建立多个MPI进程之间的联系，为后续通信做准备。而MPI_Finalize则是结束MPI执行环境。这两个函数就是定义MPI程序的并行区的，除了检测是否初始化的函数之外，不应该在这两个函数定义的区域外调用其它MPI函数。这两个函数都返回整型值，标识函数是否调用成功。

（2） MPI_Comm_rank
MPI_Comm_rank函数就是用来标识各个MPI进程的，给出调用该函数的进程的进程号。MPI_Comm_rank返回整型的错误值，需要提供两个参数：
l MPI_Comm类型的通信域，标识参与计算的MPI进程组。上面例子中使用的是MPI_COMM_WORLD，这个进程组是MPI实现预先定义好的进程组，指的是所有MPI进程所在的进程组。如果想要申请自己的特殊的进程组，则需要通过MPI_Comm定义并通过其它MPI函数生成。
l &rank返回调用进程中的标识号。
MPI还定义了另一个进程组MPI_COMM_SELF,只包含各个进程自己的进程组。
（3） MPI_Comm_size
这个函数则用来标识相应进程组中有多少个进程，它也有两个参数：
l MPI_Comm类型的通信域，标识参与计算的MPI进程组。上面的例子中用的是MPI_COMM_WORLD。
l &size返回相应进程组中的进程数。
运行这个程序，运行结果如图3-4,按照并行执行的方式，上面程序运行结果应该打印两行文字信息，为：
Hello World from thread 0 of 2
Hello World from thread 1 of 2
（本机系统环境变量OMP_NUM_THREADS值是2），但是运行结果确只打印了一行，显然函数MPI_Init和MPI_Finalize之间的代码仅被一个线程串行执行了。经过查询资料知道，MPI程序若要被正确运行需要使用MPICH2安装目录下的运行工具MPIEXEC wrapper运行用VS 2005生成的exe文件。启动这个程序，程序的界面如图3-5

由于该程序只有操作系统的管理员才有权使用，所以在第一次运行时需要输入计算机用户名和口令，并且不允许口令为空，如图3-6。输入完毕后，单击“Register”按钮完成注册，之后就可以使用该工具运行MPI程序了。
在“Application”栏中选择要运行的exe程序，在“Number of process”栏中选择要运行程序的线程数，然后单击“Execute”按钮运行程序。如用4线程运行上面的示例程序，输出结果如图3-7所示。

4线程分别执行MPI_Init和MPI_Finalize之间的代码，打印4行信息，程序执行结果正确。
3.4 MPI的点对点通信
点对点通信是MPI程序的基础，MPI_Send和MPI_Recv是两个最重要的函数。这两个函数的标准形式是：
l int MPI_Send(buf, counter, datatype, dest, tag, comm)
参数作用如下：
buf：发送缓冲区的起始地址，可以是数组或结构指针
count：非负整数，发送的数据个数
datatype：发送数据的数据类型
dest：整型，目的的进程号
tag：整型，消息标志
comm：MPI进程组所在的通信域
这个函数返回整型的错误码，它的含义是向通信域中的dest进程发送数据，数据存放在buf中，类型是datatype，个数是count，这个消息的标志是tag，用以和本进程向同一目的进程发送的其它消息区别开来。
int MPI_Recv(buf, count, datatype, source, tag, comm, status)
参数作用如下：
buf：接收缓冲区的起始地址，可以是数组或结构指针
count：非负整数，最多可接收的数据个数
datatype：接收数据的数据类型
source：整型，接收数据的来源，即发送数据进程的进程号
tag：整型，消息标识，应与发送操作的消息标识相同
comm：消息接收进程所在的通信域
status：MPI_Status结构指针，返回状态信息
这个函数返回整型的错误码，它的含义是进程从comm域中source进程接收标签号为tag的数据，并保存到buf中。接收缓冲区buf的大小不能小于发送过来的消息的长度。否则会由于数组越界导致程序出错。参数status是MPI_Status类型的，status主要显示接收函数的各种错误状态。通过访问status.MPI_SOURCE、status.MPI_TAG和status.MPI_ERROR就可以得到发送数据的进程号、使用的标签以及接收操作的错误代码。另外，还可以使用函数MPI_Get_count来获得实际接收到的数据项数。MPI_Get_count的标准定义为：int MPI_Get_count(MPI_Status *status, MPI_Datatype datatype, int *count);将实际接收到数据项数存放到count中。下面用一个程序说明上面提到的函数的使用方法。
示例程序见例3_2
程序的运行结果如图3-8（4个进程）
函数MPI_Get_processor_name用于获得计算机名，并存放在processor_name中，长度为namelen，宏定义MPI_MAX_PROCESSOR_NAME是机器名的最大长度。这个程序的完成的任务是使进程i发送数据给进程i+1，并等待由进程i-1发送来的数据。最后一个进程则发送数据给进程0。
3.5统计时间函数
为了验证程序并行化后的效果，MPI提供了两个用于统计时间的函数 MPI_Wtime和MPI_Wtick。其中MPI_Wtime返回一个双精度数，表示从过去某点的时刻到当前时刻所消耗的时间秒数。而函数MPI_Wtick则返回MPI_Wtime结果的精度。修改例3_2程序，在并行代码两端加入统计时间的函数，如例3_3：
例 3_3(完整程序见示例程序4_3)
begin = MPI_Wtime();
end = MPI_Wtime();
diff = end - begin;
printf(“%d process time is %9.7f\n”, myid, diff);
printf(“%d process tick is %9.7f\n”, myid, MPI_Wtick());
}

3.6负载均衡对程序性能的影响
在并行计算中，如果各个处理器上的工作所需要的完成时间不同，则会使先完成工作的处理器等待未完成工作的处理器，浪费了计算资源。这时应该使各个处理器的负载尽量均衡。一般采用的策略有两种：静态负载平衡和动态负载平衡。前者适用于计算前可以准确知道负载，而且这些负载容易平均划分给各个进程的情况。而对于事先不知道负载情况，或者总负载不易划分的情况，则需要采用动态负载划分来解决。在动态负载平衡模式中存在一个管理结点负责给各个进程分配任务，当一个进程完成当前的计算任务后，它就向管理结点申请新的任务，如果还有未分配的任务，管理结点就将任务分配给那个进程，这有点类似于计算机硬件向CPU发中断请求服务的方式。
3.7 开发实例
下面将在Windows平台上使用MPI编写一个用数值积分法计算圆周率的程序。利用公式PI＝

的近似值计算圆周率[7]，定积分的计算可以转化为求一个曲边梯形的面积问题。将积分区间等分成n个小的子区间，可将每个小的子区间上的曲边梯形近似地看成矩形，这些矩形面积的和就近似地等于原来曲边梯形的面积。这样最终将求圆周率的问题转化成了一个面积迭加的计算。每个小矩形的宽为

(n为将积分区间等分的份数)，高可以将x值带入函数

求得。用循环将每个小矩形的面积累加起来便是PI的近似值。具体的算法实现见附加中的程序“mpi_pi”。图3-10、3-11分别是用一个进程和两个进程运行的结果。

从运行结果可以看到使用两个进程时的计算速度反而不如用一个进程运行时的速度，这时由于本程序的计算规模不大，另外引入一个进程的开销大于程序并行所带来的益处，所以进程数越多反而程序的运行速度越慢。看下面一组数据8
计算机数
计算时间
1
1.63643
2
0.83180
3
0.55622
这组数据是在不同的硬件平台下实现本开发实例程序的计算时间。运行环境为3 台计算机组成的集群, 配置均为CPU : Intel PentiumIII 733MHz，相同的算法，随着参与计算的机器数增加，计算时间减少。
MPI是针对分布式计算机系统提出的，它采用非共
表3-1 享内存的方式利用多进程完成并行任务，当计算规模不大或处理器数量不多时，更多进程的维护会增加系统的开销，而且进程之间的通信存在延时。它比较适合集群计算机系统。
3.8 小结
本章对MPI编程进行了初步研究，介绍了MPI程序的特点、软件包的安装、MPI程序的运行方式。
MPI是一种基于消息传递的并行编程技术,而不是一种具体的编程语言。MPI程序与OpenMP程序的最大不同就是MPI程序不仅可以适用多线程的方式并行运算还可以让程序以多进程的方式执行，以这种方式执行的程序并不共享内存，各个进程是通过消息传递来进行通信的。这样做的好处是完成某一计算任务的不同进程可以运行在不同处理器上(不只是处理器的不同核上)，甚至是不同的结点计算机上，方便分布式计算系统的构建。在多核上使用MPI可以采用两种方式，一种是在多核平台上开发传统的多进程MPI并行程序，一个核执行一个MPI进程。另外一种方式是采用MPI + OpenMP的方法，在结点内采用多线程方式，结点间采用MPI多进程方式。
MPI函数说明及示例
MPI函数说明
（1）并行初始化函数：int MPI_Init(int *argc,char ***argv)
参数描述：argc为变量数目，argv为变量数组，两个参数均来自main函数的参数
（2）并行结束函数： int MPI_Finalize()
例如：hello.c

include “./mpich2/include/mpi.h”

include

include “./mpich2/include/mpi.h”

include

include “./mpich2/include/mpi.h”

int main(int argc,char **argv)
{
int myid,numprocs,source;
MPI_Status status;
char message[100];
MPI_Init(&argc,&argv);
MPI_Comm_rank(MPI_COMM_WORLD,&myid);
MPI_Comm_size(MPI_COMM_WORLD,&numprocs);
if(myid != 0)
{
strcpy(message,”Hello World!”);//为发送字符串赋值
//发送字符串时长度要加1，从而包括串结束标志
MPI_Send(message,strlen(message)+1,MPI_CHAR,0,99,MPI_COMM_WORLD);
}
else
{
//除0进程的其他进程接收来自于0进程的字符串数据
for(source = 1;source < numprocs;source++)
{
MPI_Recv(message,100,MPI_CHAR,source,99,MPI_COMM_WORLD,&status);
printf(“I am process %d.I receive string ‘%s’ from process %d.\n”,myid,message,source);
}
}
MPI_Finalize();
}
另附：MPI预定义数据类型与C语言数据类型的对应关系
MPI 数据类型
对应C 数据类型
MPI_CHAR
Signed char
MPI_SHORT
Signed short int
MPI_INT
Signed int
MPI_LONG
Signed long int
MPI_UNSIGNED_CHAR
Unsigned char
MPI_UNSIGNED_SHORT
Unsigned short int
MPI_UNSIGNED
Unsigned int
MPI_UNSIGNED_LONG
Unsigned long int
MPI_FLOAT
Float
MPI_DOUBLE
Double
MPI_LONG_DOUBLE
Long double
MPI_BYTE
无相应数据类型
MPI_PACKED
无相应数据类型
MPI_LONG_LONG_INT
Long long int