OpenMP的简单使用教程

OpenMP的简单使用教程
今天有幸参加了一个XSEDE OpenMP的workshop讲座,真是受益匪浅啊。简单来说OpenMP就是一个多线程程序的框架。和MPI相比,MPI每一个Node都有独立的内存空间,但是OpenMP所有的线程共享一个内存空间。显而易见,OpenMP的硬件制约要比MPI大,但是只要硬件跟得上就会比MPI要快。OpenMP一般都会部署再超级计算机中心,但是几年之前它就成为了一个通用标准。基本上所有的主流C/C++语言编译器都支持OpenMP(当然除了C之外,OpenMP还支持Fortran,不过这里我主要介绍一下C),这意味着只要你的计算机上安装了C的编译器你就可以直接使用OpenMP不需要额外部署任何东西。(这太方便了,想想Hadoop,当年为了部署它,我被折磨的那个叫一个销魂啊。)

##编写OpenMP程序

编写OpenMP的程序并不需要额外的学习很多东西,其实就是普通的C代码加上一些Directives。用Hello World为例:

#include<stdio.h>
int main(int argc,char** argv){
  printf("Hello World!\n");
  return 0;
}

这是一个最简单的程序,编译执行后的输出是。

Hello World!
然后我们给他加上OpenMP的directive,他就变成了。

#include<stdio.h>
int main(int argc,char** argv){
  #pragma omp parallel
  printf("Hello World!\n");
  return 0;
}

看到没?就是简单的加了一句话#pragma omp parallel,若是正常编译的话,这句话会被忽略一点都不影响你的程序,只有调用OpenMP的lib编译的时候才会编译成OpenMP的版本。以GCC为例,OpenMP的编译方法是:

gcc -o hello hello.c -fopenmp
仅仅多了一个-fopenmp的flag,太简单了。现在我们试试效果,这个hello world的输出结果变成了:

Hello World!
Hello World!
Hello World!
Hello World!
Hello World!
Hello World!
Hello World!
Hello World!

输出了8次Hello World!。这是为什么呢?原因是那个directive之后的代码被多线程操作了,默认情况下GCC的-fopenmpflag会调用和你CPU内核数相同数量的线程来执行程序。这个线程数量是可以控制,只需要修改环境变量中OMP_NUM_THREADS参数,例如:

export OMP_NUM_THREADS=2
之后也不需要重新编译,直接执行之前的程序,就会发现Hello World!的数量变成了两个了。

###for循环

大多数情况下,我们主要会将多线程技术应用在循环中而不是全部代码。OpenMP主要被应用于for循环的多线程处理,这主要还是因为for循环比较容易控制。当然如果你非要用在while循环上也不是不可以,只不过要大量修改你的代码然后用一个block来圈在while之外,总之是一个比较另类的操作了。我在此就不多说了。用一个最简单的例子,找寻1到10000中最大的数字。当然这个例子很白痴,但是代码简洁比较好理解。

#include<stdio.h>
int main(int argc, char** argv){
  int i;
  int max = 0;
  #pragma omp parallel for
  for(i=0;i<=10000;i++){
    if(i>max)max=i;
  }
  printf("%d\n",max);
}

结果是:

10000
我们在directive里面加了一个for,变成了#pragma omp parallel for,这样的话OpenMP就只会把下面的for循环进行多线程处理,所以我们只看到了一个输出而不是好几个。

这里有一点一定要主要,将要进行多线程处理的for循环一定是独立的(independent),也就是说下面这种情况是不可以的。

for(i=0;i<10000;i++){
  a[i] = a[i-1]+1;
}

每一次循环都需要之前的结果,这种循环没有办法进行多线程处理,因为每一次都要等待之前的输出,强行处理还会出错。

####private参数

细心的话,也许你会有一个问题。那就是循环只有一个迭代器(通常是变量i),但进行多线程处理的时候,这个迭代器会不会被各个线程互相扯皮?这却是是一个问题,如果这个迭代器仅仅用作计数的话可能还不是什么大问题,但是如果这个变量也参与运算,这就麻烦了,所有OpenMP引入了private参数,用来告诉编译器那些变量需要有一个本地的实例。这个参数用于迭代器的话就变成了下面的例子。

#pragma omp parallel for private(i)
for(i=0;i<10000;i++){
  ...
}

这样的话每个线程都有自己的i拷贝,就不会冲突了。当然这个参数的用途很广,这仅仅是一个简单的例子。但事实上基本上每次对循环进行多线程处理的时候都需要拷贝迭代器,因此可以把for private()这样连起来记忆,不容易忘。

####reduction参数

我们回到之前的那个10000以内最大整数的例子。之前我提到了循环一定不能互相关联,否则不是效率低下(还不如单线程),就是出错误。这个例子其实就是一个反面典型,就是因为max这个变量。循环的每一步都会读取之前的结果来参与计算。可是针对max变量的这个例子,我们还是有解决办法的。

如果我们环境变量设置线程数为2,这个循环的前5000项和后5000项将分别在两个不同的线程中处理,也就是一份为二。我们需要的是所有数值中的最大值,换一个角度想。我们可以在前5000项和后5000项分别算出最大值,然后在对这两个结果进行比较取最大值,这样的话我们同样完成了寻找最大值的目的同时还可以多线程处理。

那么怎样做到呢?这个时候我们就需要reduction这个参数。reduction就是让某些变量先在各自的线程中独自计算,然后在循环结束时在合并。那么我们用这个参数来修改之前的例子:

#include<stdio.h>
int main(int argc, char** argv){
  int i;
  int max = 0;
  #pragma omp parallel for private(i) reduction(max:max)
  for(i=0;i<=10000;i++){
    if(i>max)max=i;
  }
  printf("%d\n",max);
}

这下就变成了完整版。reduction这个函数格式是reduction(operation:variable),冒号前面的是操作类型,冒号后面的是变量名。目前reduction这个函数只支持如下几个操作:

+(初始值是0)
-(初始值是0)
max(初始值是最小值)
min(初始值是最大值)
Bit(&,|,^,iand,ior)(初始值是~0,0)
Logical(&&,||,.and.,.or.)(初始值是0,1,.true.,.false.)
##编译与执行

其实之前已经提到了如何编译和执行。今天有幸在超计算机中心的服务器上面测试了几次,然后回到本地计算机试了一下,发现本地执行简单的多。因为本地执行就是简单的./program。Windows下的话你可以试试双击。在服务器上面跑还要考虑调度多少node和多少core,但是在本地不需要提供任何额外的参数就和执行普通程序一样。所以说OpenMP真是多线程计算一大神器啊,主要还是操作简单。

之前提到了现在主流的C/C++编译器都已经支持OpenMP了,那么都有那些编译器呢?我在这里给出一个列表。

编译器 参数 不设置环境变量时的初始值
GNU (gcc, g++, gfortran) -fopenmp 与CPU内核数相同数量的线程
Intel (icc ifort) -openmp 与CPU内核数相同数量的线程
Portland Group (pgcc,pgCC,pgf77,pgf90) -mp 只使用一个线程
顺便在提一下,环境变量是控制线程数的环境变量是OMP_NUM_THREADS。

###参考文献

XSEDE HPC Workshop: Open MP
How to compile and run openMP program
注:转载仅作为笔记使用,如有侵权,请联系。

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
VS2022是Visual Studio 2022的简写,而OpenMP是一种常用的并行计算编程模型。VS2022与OpenMP的结合使用可以帮助开发者更方便地编写并行化的程序。 下面是一个使用VS2022和OpenMP编写的简单例子: ```c++ #include <iostream> #include <omp.h> int main() { #pragma omp parallel { int thread_id = omp_get_thread_num(); std::cout << "Hello from thread " << thread_id << std::endl; } return 0; } ``` 这个例子中,我们使用OpenMP的`#pragma omp parallel`指令来表示编写并行代码块。在这个代码块中,每个线程都会执行`omp_get_thread_num()`函数来获取当前线程的ID,并将其打印到控制台上。 在Visual Studio 2022中,我们可以直接将这段代码复制到源文件中,并设置编译选项以启用OpenMP支持。可以通过以下步骤来启用OpenMP: 1. 打开VS2022,创建一个新的C++项目。 2. 在源文件中粘贴上述代码。 3. 右击项目名称,选择“属性”。 4. 在属性对话框中,选择“C/C++” -> “语言”。 5. 在“OpenMP支持”下拉菜单中选择“Yes (/openmp)”。 6. 点击“应用”和“确定”按钮以保存更改。 7. 编译并运行代码。 编译和运行之后,控制台将会输出每个线程的ID。由于OpenMP的并行性质,可能会有不同的线程以不同的顺序打印输出。 这个简单的例子展示了如何在VS2022中使用OpenMP来实现并行化。在实际的开发项目中,我们可以根据需要来并行化程序的不同部分,从而提高程序的性能。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值