《多核程序设计》Part 6：OpenMP 一种可移植的多线程解决方案（2）

最新推荐文章于 2021-06-26 19:30:14 发布

随遇而安随缘一世

最新推荐文章于 2021-06-26 19:30:14 发布

阅读量1.1k

点赞数

分类专栏： C Related Language

C Related Language 专栏收录该内容

75 篇文章 1 订阅

订阅专栏

OpenMP对于循环语句中的循环有如下约束：

1.循环语句中的循环变量必须是有符号整型，对于无符号整型，将无法使用。（OpenMP2.5. 在3.0中将被取消）

2.循环语句中的比较操作必须是这样形式：< , <= , > ,>=

3.循环语句中的第3个表达式必须是整数加或者整数减操作，加减的数值必须是一个循环不变量。

4.如果比较操作是< , <=，那么寻找变量的值在每次迭代的时候都必须增加；相反，如果比较操作是>,>=，那么循环变量的值在每次迭代时都必须减少。

5.循环必须是单入口，单出口的。（如果使用了goto或break语句，那么它们的跳转范围必须在循环之内，不能跳出循环。exit是个例外）

数据竞争：

使用OpenMP时，很容易忽视数据竞争的存在。使用Intel线程检测器（Intel VTune(TM)性能分析工具的一个插件），可以辅助找到数据竞争。

默认情况，并行区中的所有变量都是共享的，但3种情况例外：

1.在paraller for循环中，循环索引是私有的；

2.并行区中的局部变量是私有的；

3.所有在private、firstprivate、lastprivate或reduction子句中列出的变量是私有的；

每当使用OpenMP并行化一个循环之前，应该仔细检查所有的存储访问，包括有被调用函数所发出的访存。

数据规约（reduction)：

http://www.cnblogs.com/me115/archive/2011/01/27/1946129.html

降低线程开销：

#pragma omp parallel for

for(k = 0 ;k < m ; i++){

fun1(k);

}

#pragma omp parallel for

for(k = 0 ;k < m ; i++){

fun2(k);

}

以上需要进入并行区2次，增大了线程开销，像这种相邻的，可进一步优化：

#pragma omp parallel

{

#pragma omp for

for(k = 0 ;k < m ; i++){

fun1(k);

}

#pragma omp for

for(k = 0 ;k < m ; i++){

fun2(k);

}

这样，会运行的更快，因为它只包含一次进入并行区域的开销。

提高程序性能的设计方法

使用Barrier和nowait

线程遇到栅障必须等待，直到并行区中的所有线程都到达同一点，再继续向下执行。在parallel/for/sections/single的结构的最后，会有一个隐式的栅障。可使用nowait子句除去这个隐式的栅障。

#pragma omp parallel for nowait

OpenMP也支持使用barrier编译指导显式的使用栅障，

#pragma omp barrier

但线程和多线程交错执行：

int x[100];

#pragma omp parallel

{

//每个线程都调用这个函数

int tid = omp_get_thread_num();

//这个循环被划分到多个线程上

#pragma omp for nowait

for(int k = 0; k < 100 ;i++)

x[k] = fn1(tid);

//上面这个循环的结束处不存在使所有线程进行同步的隐式栅障

#pragma omp master

y = fn_input_only();//只有主线程会调用这个函数，添加一个显式的栅障对所有的线程进行同步，从而确保x[0-99]处于就绪状态

#pragma omp barrier

//这个循环也被分到多个线程上

#pragma omp for nowait

for(k = 0; k < 100; k++)

x[k] = y + fn2(x[k] );

//上面的这个循环没有栅障，所有线程不会相互等待

// 某个线程（假设为第一个线程）在执行完上面的代码后将继续执行后续的代码

#pragma omp single

fn_single_print(y);//只有一个线程会调用这个函数

//上面这个single结构会有一个隐式栅障，所以会进行线程同步

#pragma omp master

fn_print_array(x);//只有一个线程会打印x[];

}

数据的copy-in和copy-out

firstprivate	使用变量在主线程的值对其在每个线程的对应私有变量进行初始化。
lastprivate	将最后一次迭代块中计算出来的私有变量复制出来，到主线程中。
copyin	将主线程的threadprivate变量的值复制到执行并行区的每个线程的threadprivate变量中。
copyprivate	使用一个私有变量将某个值从一个成员线程广播到执行并行区的其它线程。