openMP开发-CSDN博客

本文链接：https://blog.csdn.net/qq_43627907/article/details/147102224

OpenMP编程笔记

文章目录

OpenMP编程笔记
@[toc]
1 并行编程简介
2 什么是OpenMP
1️⃣ OpenMP 简介
2️⃣ 适用场景
3️⃣ 核心用法
🔹 基本指令
🔹 工作共享指令

4️⃣ 关键环境变量
5️⃣ 优缺点分析
6️⃣ 示例：并行计算
7️⃣ 最佳实践

3 并发和并行的区别
1. 核心定义
2. 执行方式对比
3. 资源依赖
4. 实现目标
5. 现实类比
6. 常见误区
总结

4 openmp用法
5 编译器链接OpenMP
5.1 g++ (GCC) 编译器
5.2 MSVC (Visual Studio) 编译器
5.3 CMake链接openMP
5.4 关键差异与注意事项
5.5 跨平台兼容性建议

6 OpenMP常用指令
6.1 并行域控制类指令
6.2 任务分担类指令
6.3 同步控制类指令
6.4 数据环境类指令

7 OpenMP函数
8 OpenMP数据类型
9 OpenMP子句
9.1 数据共享属性类子句
9.2 数据规约类子句
9.3 任务调度类子句
9.4 线程控制类子句
9.5 同步控制类子句
9.6 其他重要子句

10 最佳线程数
11 相关链接

更多精彩内容
👉内容导航 👈
👉Qt开发经验 👈
👉C++ 👈
👉开发工具 👈

1 并行编程简介

基本并行编程概念

指令基并行：CPU流水线
分布式并行：MPI
共享存储式并行：OpenMP、OpenCL、OpenACC

使用场景：

单机多核CPU：openMP
多节点并行（多台机器）：MPI
GPU加速：CUDA/OpenACC
MPI也可以用于单机，OMP也支持设备加速。

2 什么是OpenMP

1️⃣ OpenMP 简介

OpenMP（Open Multi-Processing）是一个为多处理器编程设计的开放标准，它提供了一组与平台无关的API，用于在共享内存的多处理器系统上开发并行应用程序。

基本概念
目的：OpenMP旨在简化多处理器系统上并行程序的编写、编译、调试和运行。
范围：它主要用于共享内存架构（如多核CPU、超线程技术）上的并行编程。
标准：由OpenMP Architecture Review Board维护和发布，目前已有多个版本，每个版本都增加了新的功能和改进。

核心特性：
基于编译制导指令：通过 #pragma omp 注解标记并行代码块。
Fork-Join 模型：主线程启动时创建多个并行线程，执行后合并回主线程。
隐式线程管理：开发者无需手动创建/销毁线程，由运行时库自动处理。

2️⃣ 适用场景

科学计算：矩阵运算、数值模拟等计算密集型任务。
图像处理：像素级并行处理（如滤波、卷积）。
多核 CPU 优化：针对多核架构的循环并行化（如 for 循环）。

3️⃣ 核心用法

🔹 基本指令
#include <omp.h>
#pragma omp parallel  // 标记并行区域
{
    // 并行代码块（每个线程执行一次）
    printf("Thread %d executing\n", omp_get_thread_num());
}
🔹 工作共享指令
并行循环：
#pragma omp parallel for
for (int i=0; i<100; i++) {
    // 自动分配循环迭代到不同线程
}
任务分配：
#pragma omp sections
{
    #pragma omp section
    { /* Task A */ }
          
    #pragma omp section
    { /* Task B */ }
}
4️⃣ 关键环境变量

变量名作用
OMP_NUM_THREADS 设置最大线程数（默认=CPU逻辑核心数）
OMP_SCHEDULE 控制循环任务的调度策略（如 static, dynamic, guided）
OMP_DYNAMIC 允许运行时调整线程数（TRUE/FALSE）

5️⃣ 优缺点分析

优点：
开发简单：通过注解即可实现并行，无需管理线程细节。
跨平台：支持 Windows/Linux/macOS，兼容 GCC、MSVC 等编译器。
无需安装配置，编译器支持。

局限：
仅限共享内存系统：不适用于分布式内存（需 MPI 等配合）。
可维护性差：并行代码与非并行代码混合，可能降低可读性。

6️⃣ 示例：并行计算
#include <omp.h>
#include <stdio.h>

int main() {
    double pi = 0.0;
    int steps = 1000000;

    #pragma omp parallel for reduction(+:pi)
    for (int i=0; i<steps; i++) {
        double x = (i + 0.5) / steps;
        pi += 4.0 / (1.0 + x*x);
    }
    pi /= steps;

    printf("π ≈ %.16f\n", pi);
    return 0;
}
reduction 子句：自动合并各线程的 pi 计算结果，避免竞争条件。

7️⃣ 最佳实践

避免过度并行：线程数超过物理核心数可能降低性能。
注意数据竞争：使用 critical 或原子操作保护共享资源。
结合 SIMD：与向量化指令（如 AVX）结合提升性能。

8️⃣ 常用API

API 描述
omp_get_thread_num() 返回当前线程的编号（0表示主线程）
omp_get_num_threads() 返回当前并行区域中的线程总数
omp_set_num_threads(int) 设置下一个并行区域中应使用的线程数
#pragma omp parallel 标记一个并行区域，该区域内的代码将由多个线程并行执行
#pragma omp for 将一个循环并行化，每个迭代由不同的线程执行
omp_lock_t 定义一个锁变量，用于线程间的互斥访问
omp_init_lock(omp_lock_t*) 初始化一个锁
omp_set_lock(omp_lock_t*) 设置锁，使当前线程拥有该锁
omp_unset_lock(omp_lock_t*) 释放锁，使其他线程可以获取该锁
omp_destroy_lock(omp_lock_t*) 销毁一个锁，释放相关资源

如需更深入的配置或特定场景问题，可提供代码片段进一步分析！ 🚀

变量名	作用
`OMP_NUM_THREADS`	设置最大线程数（默认=CPU逻辑核心数）
`OMP_SCHEDULE`	控制循环任务的调度策略（如 `static, dynamic, guided`）
`OMP_DYNAMIC`	允许运行时调整线程数（`TRUE`/`FALSE`）

API	描述
`omp_get_thread_num()`	返回当前线程的编号（0表示主线程）
`omp_get_num_threads()`	返回当前并行区域中的线程总数
`omp_set_num_threads(int)`	设置下一个并行区域中应使用的线程数
`#pragma omp parallel`	标记一个并行区域，该区域内的代码将由多个线程并行执行
`#pragma omp for`	将一个循环并行化，每个迭代由不同的线程执行
`omp_lock_t`	定义一个锁变量，用于线程间的互斥访问
`omp_init_lock(omp_lock_t*)`	初始化一个锁
`omp_set_lock(omp_lock_t*)`	设置锁，使当前线程拥有该锁
`omp_unset_lock(omp_lock_t*)`	释放锁，使其他线程可以获取该锁
`omp_destroy_lock(omp_lock_t*)`	销毁一个锁，释放相关资源

3 并发和并行的区别

并发（Concurrency）和并行（Parallelism）是计算机领域中两个常被混淆但本质不同的概念。以下是它们的核心区别及详细说明：

1. 核心定义

并发
多个任务在同一时间段内交替执行，通过快速切换任务（如时间片轮转）营造“同时进行”的假象。
本质：逻辑上的同时处理（单核也能实现）。
目标：提高资源利用率（如避免CPU因I/O等待而闲置）。

并行
多个任务真正同时执行，需要多核或多处理器支持。
本质：物理上的同时处理（依赖硬件支持）。
目标：缩短任务完成的总时间（适用于计算密集型场景）。

2. 执行方式对比

场景并发并行
单核CPU ✅ 可交替执行任务（如线程切换） ❌ 无法真正并行
多核CPU ✅ 可交替执行任务（更高效） ✅ 各核独立执行任务（物理并行）
代码实现 多线程/协程通过调度交替运行多线程/进程分配到不同CPU核心

3. 资源依赖
并发

依赖操作系统/语言的调度机制（如线程切换、协程挂起）。
典型场景：Web服务器处理多个请求（任务交替处理I/O等待）。
# Python协程示例（单线程并发处理I/O任务）
async def fetch_data():
    await asyncio.sleep(1)  # 模拟I/O等待
并行

依赖多核硬件（如CPU、GPU或分布式系统）。
典型场景：矩阵运算、大数据处理（任务可拆分且无依赖）。
# Python多进程并行计算（利用多核）
from multiprocessing import Pool
with Pool(4) as p:
    p.map(heavy_computation, data)
4. 实现目标

维度并发并行
资源利用率 优化等待时间（如I/O阻塞）最大化计算吞吐量
适用任务类型 I/O密集型（网络请求、文件读写）计算密集型（数值计算、图像处理）
系统复杂度 需处理竞态条件、锁机制需任务拆分、负载均衡

5. 现实类比

并发
类似单柜台银行：一个柜员轮流处理多个客户的业务（快速切换，看似同时服务）。
并行
类似多柜台银行：多个柜员同时为不同客户办理业务（真正同时执行）。

6. 常见误区

❌ “多线程一定比单线程快” → 并发可能因切换开销反而更慢（如无I/O等待的纯计算任务）。
❌ “并行就是多线程” → 并行需要多核支持，而多线程在单核上只是并发。
✅ 两者可结合：如多核系统中，每个核运行并发任务（既有并行，又有并发）。

总结

并发是处理多任务的能力（逻辑上的“同时”），解决资源闲置问题。
并行是执行多任务的手段（物理上的“同时”），加速任务完成。
实际系统中二者常结合使用（如分布式系统的并行节点 + 节点内并发处理）。

场景	并发	并行
单核CPU	✅ 可交替执行任务（如线程切换）	❌ 无法真正并行
多核CPU	✅ 可交替执行任务（更高效）	✅ 各核独立执行任务（物理并行）
代码实现	多线程/协程通过调度交替运行	多线程/进程分配到不同CPU核心

维度	并发	并行
资源利用率	优化等待时间（如I/O阻塞）	最大化计算吞吐量
适用任务类型	I/O密集型（网络请求、文件读写）	计算密集型（数值计算、图像处理）
系统复杂度	需处理竞态条件、锁机制	需任务拆分、负载均衡

4 openmp用法

OpenMP 是用于共享内存并行编程的 API，主要通过编译器指令实现多线程并行。以下是核心用法总结：

基础并行区域

#pragma omp parallel
{
    // 代码块会被多个线程同时执行
    printf("Thread %d\n", omp_get_thread_num());
}

C++循环并行化

#pragma omp parallel for
for (int i = 0; i < N; i++) {
    // 循环迭代自动分配给不同线程
}

数据作用域控制

private：每个线程私有副本
shared：线程间共享变量
firstprivate：继承主线程初始值

#pragma omp parallel private(tmp) shared(sum)

同步机制

锁：OpenMP提供了简单的锁机制，用于保护临界区。相关函数有：
- omp_lock_t：定义锁类型。
- omp_init_lock：初始化锁。
- omp_set_lock：加锁。
- omp_unset_lock：解锁。
- omp_destroy_lock：销毁锁。
临界区：

#pragma omp critical
{
    // 保证代码块原子执行
}

原子操作：

#pragma omp atomic
counter++;

屏障同步：

#pragma omp barrier

归约操作

#pragma omp parallel for reduction(+:sum)
for (int i=0; i<N; i++) {
    sum += a[i];
}

任务调度策略

#pragma omp parallel for schedule(dynamic, chunk_size)
// 可选调度方式：static/dynamic/guided/auto

嵌套并行

omp_set_nested(1); // 启用嵌套并行
#pragma omp parallel num_threads(2)
{
    #pragma omp parallel num_threads(2)
    {
        // 嵌套并行区域
    }
}

线程数量控制：可以通过omp_set_num_threads函数或者设置环境变量OMP_NUM_THREADS来指定线程数。例如：

OMP_NUM_THREADS：环境变量设置线程数，默认是CPU核数；
omp_set_num_threads：影响后续所有并行域的线程数；
num_threads：设置当前并行域的线程数。
优先级：子句>子程序>环境变量

omp_set_num_threads(4); // 全局设置
#pragma omp parallel num_threads(2) // 局部设置

编译选项（GCC）：

gcc -fopenmp program.c -o program

最佳实践：

避免在并行区域内部进行IO操作
注意false sharing问题（使用填充或局部变量）
平衡负载（选择合适的schedule策略）
尽量减少同步操作频率

可通过环境变量控制运行时行为：

export OMP_NUM_THREADS=4  # 设置默认线程数

5 编译器链接OpenMP

5.1 g++ (GCC) 编译器

编译选项

g++ -fopenmp your_code.cpp -o output

-fopenmp：启用 OpenMP 支持（编译和链接阶段均需此选项）。

代码要求

包含头文件：
```
#include <omp.h>
```

Qt 项目配置（.pro 文件）

# 添加编译和链接标志
QMAKE_CXXFLAGS += -fopenmp
QMAKE_LFLAGS   += -fopenmp

验证是否生效

#pragma omp parallel
{
    printf("Thread %d of %d\n", omp_get_thread_num(), omp_get_num_threads());
}

运行程序观察多线程输出。

5.2 MSVC (Visual Studio) 编译器

编译选项

命令行：
```
cl /openmp your_code.cpp
```
Visual Studio IDE：
在项目属性中启用：
属性 → C/C++ → 语言 → OpenMP 支持 → 是 (/openmp)。

代码要求

包含头文件：
```
#include <omp.h>
```
注：MSVC 可能需要额外配置包含路径（默认包含在 Windows SDK 中）。

Qt 项目配置（.pro 文件）

# 针对 MSVC 编译器
msvc {
    QMAKE_CXXFLAGS += /openmp
    QMAKE_LFLAGS   += /openmp
}

验证是否生效

#pragma omp parallel
{
    printf("Thread %d\n", omp_get_thread_num());
}

5.3 CMake链接openMP

演示代码如下所示，CMake中g++、msvc编译器链接openMP

# 添加主程序
add_executable(test1 main.cpp )

#链接openmp
find_package(OpenMP REQUIRED)  # 查找OpenMP
if(MSVC)
    target_compile_options(test1 PRIVATE /openmp)        # MSVC编译器链接OpenMP 方法1
    # set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} /openmp") # MSVC编译器链接OpenMP 方法2
else()
    target_link_libraries(test1 PUBLIC OpenMP::OpenMP_CXX) # GCC编译器链接OpenMP 方法1
    # set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -fopenmp")  # GCC编译器链接OpenMP 方法2
endif()

示例代码

#include<iostream>
#include<omp.h>
using namespace std;

int fun(int max)
{
    int sum = 0;
    for(int i=0;i<max;i++)
    {
        sum += i;
    }
    return sum;
}

int main()
{
    int a = omp_get_wtime(); // 获取时间
    int sum = 0;
    #pragma omp parallel for reduction(+:sum) // reduction(+:sum) 表示将sum的值进行累加
    for(int i=0;i<500000;i++)
    {
        sum += fun(i);
    }
    cout<<"Sum: "<<sum<<endl; // 输出结果
    int b = omp_get_wtime();
    cout<<"Time: "<<b-a<<endl; // 显示计算时间
    return 0;
}

5.4 关键差异与注意事项

特性	g++ (GCC)	MSVC
编译标志	`-fopenmp`	`/openmp`
OpenMP 版本	通常支持较新版本	依赖 MSVC 版本
嵌套并行	默认支持	需手动启用
线程局部存储 (TLS)	`private` 或 `threadprivate`	可能需要 `__declspec(thread)`

常见问题

MSVC 启用嵌套并行：
```
omp_set_nested(1); // 显式启用
```

环境变量控制线程数：

export OMP_NUM_THREADS=4  # Linux/g++
set OMP_NUM_THREADS=4     # Windows/MSVC

调试信息：
MSVC 在 Debug 模式下可能禁用 OpenMP，需检查项目配置。

5.5 跨平台兼容性建议

#ifdef _OPENMP
    #include <omp.h>
#else
    #define omp_get_thread_num() 0
    #define omp_get_num_threads() 1
#endif

确保代码在不支持 OpenMP 的环境中回退到单线程模式。

6 OpenMP常用指令

OpenMP是一种用于共享内存并行系统的多线程程序设计方案，通过编译制导指令实现并行化。以下是OpenMP的一些常用指令及其简要说明：

6.1 并行域控制类指令

parallel
- 用途：用在一个代码段之前，表示这段代码将被多个线程并行执行。
- 格式：#pragma omp parallel [子句]
- 示例：
```
#pragma omp parallel
{
    // 并行代码
}
```

6.2 任务分担类指令

for
- 用途：用于for循环之前，将循环分配到多个线程中并行执行，必须保证每次循环之间无相关性。
- 格式：#pragma omp for [子句]
- 示例：
```
#pragma omp for
for (int i = 0; i < N; ++i)
{
    // 循环体
}
```

sections

用途：用在可能会被并行执行的代码段之前，用于非迭代计算的任务分担。

格式：

#pragma omp sections
{
    #pragma omp section
    {
        // 代码块1
    }
    #pragma omp section
    {
        // 代码块2
    }
}

single
- 用途：用在一段只被单个线程执行的代码段之前。
- 格式：#pragma omp single [子句]
- 示例：
```
#pragma omp single
{
    // 单线程执行代码
}
```

6.3 同步控制类指令

critical
- 用途：用于实现临界区域，保证每次只有一个线程进入该区域。
- 格式：#pragma omp critical [(name)]
- 示例：
```
#pragma omp critical
{
    // 临界区代码
}
```
barrier
- 用途：用于并行区内代码的线程同步，所有线程执行到barrier时要停止，直到所有线程都执行到barrier时才继续往下执行。
- 格式：#pragma omp barrier
atomic
- 用途：用于指定一个数据操作需要原子性地完成。
- 格式：#pragma omp atomic
- 示例：
```
#pragma omp atomic
x = x + 1;
```
master
- 用途：用于指定一段代码由主线程执行。
- 格式：#pragma omp master
- 示例：
```
#pragma omp master
{
    // 主线程执行代码
}
```
ordered
- 用途：用于指定并行区域的循环按顺序执行。
- 注意：必须和for或parallel for指令结合使用，且for或parallel for指令中必须含有ordered子句。

6.4 数据环境类指令

private
- 用途：指定每个线程都有它自己的变量私有副本。
- 格式：作为子句使用，如private(变量列表)
firstprivate
- 用途：类似private，但变量在进入线程时要继承主线程中的初值。
- 格式：作为子句使用，如firstprivate(变量列表)
lastprivate
- 用途：将线程中的私有变量的值在并行处理结束后复制回主线程中的对应变量。
- 格式：作为子句使用，如lastprivate(变量列表)
shared
- 用途：指定变量为多个线程间的共享变量。
- 格式：作为子句使用，如shared(变量列表)
reduction
- 用途：指定一个或多个变量是私有的，并且在并行处理结束后这些变量要执行指定的归约运算（如+、-、*等）。
- 格式：作为子句使用，如reduction(操作符:变量列表)

7 OpenMP函数

OpenMP 提供了一系列运行时库函数（以 omp_ 开头），用于控制并行环境、同步、线程管理等功能。以下是 C/C++ 中常用的 OpenMP 函数列表：

环境控制函数

omp_get_num_threads()
返回当前并行区域中的线程数。
omp_get_thread_num()
返回当前线程的 ID（0 到 omp_get_num_threads()-1）。
omp_set_num_threads(int num_threads)
设置后续并行区域使用的线程数。
omp_get_max_threads()
返回并行区域可能使用的最大线程数。
omp_get_num_procs()
返回系统中可用的处理器数量。

锁机制函数

omp_init_lock(omp_lock_t \*lock)
初始化一个锁。
omp_set_lock(omp_lock_t \*lock)
获取锁（阻塞直到成功）。
omp_unset_lock(omp_lock_t \*lock)
释放锁。
omp_test_lock(omp_lock_t \*lock)
非阻塞尝试获取锁，返回是否成功。
omp_destroy_lock(omp_lock_t \*lock)
销毁锁。

时间函数

cpu_time()
clock()

omp_get_wtime()

返回当前时间（秒），用于测量代码段的执行时间。

cppdouble start = omp_get_wtime();
// 并行代码
double end = omp_get_wtime();
printf("Time: %f seconds\n", end - start);

动态调整函数

omp_get_dynamic()
检查是否允许动态调整线程数（返回 0 或 1）。
omp_set_dynamic(int dynamic)
启用/禁用动态调整线程数（1 启用，0 禁用）。

嵌套并行函数

omp_get_nested()
检查是否启用嵌套并行。
omp_set_nested(int nested)
启用/禁用嵌套并行（1 启用，0 禁用）。

其他辅助函数

omp_in_parallel()
返回当前是否在并行区域内（0 表示串行，非 0 表示并行）。
omp_get_level()
返回当前嵌套并行区域的深度。

使用注意事项

头文件：需包含 #include <omp.h>。
编译选项：需启用 OpenMP（如 GCC 使用 -fopenmp）。
作用域：函数行为受当前并行区域的影响（如 omp_get_num_threads() 在串行区域返回 1）。

8 OpenMP数据类型

在 OpenMP 中，数据类型主要与并行区域中的数据作用域和共享属性相关，而非传统意义上的数据类型。以下是 OpenMP 中关键数据作用域类型的详细说明：

共享数据 (shared)

作用：所有线程共同访问同一内存地址。
适用场景：多线程需共同修改/读取的全局变量、堆内存。

示例：

int global_var; // 全局变量默认 shared
#pragma omp parallel
{
    global_var++; // 需同步机制避免竞争
}

私有数据 (private)

特点：
- 每个线程拥有独立副本
- 初始值未定义，需显式初始化
适用场景：循环计数器、临时变量。

示例：

#pragma omp parallel private(local_var)
{
    local_var = omp_get_thread_num(); // 必须初始化
}

首私有化 (firstprivate)

增强版 private：继承主线程的初始值

典型应用：需保留原始值的配置参数

int config = 10;
#pragma omp parallel firstprivate(config)
{
    printf("%d", config); // 所有线程输出10
}

末私有化 (lastprivate)

特性：将最后一次迭代的值回传主线程

常见用途：并行循环结果回传

int result;
#pragma omp parallel for lastprivate(result)
for(int i=0; i<100; i++){
    result = i;
}
// result == 99

归约操作 (reduction)

机制：为每个线程创建临时副本，最后合并结果
支持操作：+、*、max、min 等

示例：

int sum = 0;
#pragma omp parallel for reduction(+:sum)
for(int i=0; i<100; i++){
    sum += i; // 自动线程安全累加
}

线程本地存储 (threadprivate)

持久性：跨并行区域保持值

限制：需全局/静态变量

#pragma omp threadprivate(cache)
int cache;

同步数据类型

omp_lock_t：互斥锁

omp_lock_t lock;
omp_init_lock(&lock);
#pragma omp parallel
{
    omp_set_lock(&lock);
    // 临界区代码
    omp_unset_lock(&lock);
}

✨ 最佳实践建议：

优先使用 reduction 代替手动原子操作
警惕 false sharing：使用对齐或填充优化缓存行
对大型只读数据使用 shared 减少内存开销
复杂数据结构建议采用显式任务分配

9 OpenMP子句

9.1 数据共享属性类子句

private(list)

作用：为每个线程创建变量的私有副本，初始值未定义
适用指令：parallel, for, sections 等

int a = 10;
#pragma omp parallel private(a)
{
    a += omp_get_thread_num(); // 每个线程独立操作自己的a副本
}

shared(list)

作用：变量在所有线程间共享，初始值为主线程的值；
注意：需用同步机制避免数据竞争

int counter = 0;
#pragma omp parallel shared(counter)
{
    #pragma omp atomic
    counter++; // 需要原子操作保证安全
}

default(none|shared)

作用：设置未显式声明变量的默认共享规则
建议：使用 default(none) 强制显式声明所有变量

#pragma omp parallel for default(none) shared(arr) private(i)

firstprivate

作用：firstprivate 子句用于在并行区域中，为每个线程创建变量的私有副本，并将主线程中的变量初始值复制到这些私有副本中。这意味着每个线程在并行区域开始时，都会拥有一个与主线程中相同初始值的变量副本。
使用场景：当您希望在并行区域中修改变量，但又不希望这些修改影响到其他线程或主线程中的原始变量时，可以使用 firstprivate。

示例：

int x = 10;
#pragma omp parallel firstprivate(x)
{
    x += omp_get_thread_num(); // 每个线程都有自己的 x 副本，并独立修改
}
// 主线程中的 x 仍然为 10

lastprivate

作用：lastprivate 子句用于在并行区域结束时，将最后一个执行到并行区域末尾的线程的私有变量副本的值，复制回主线程中的原始变量。这意味着主线程中的变量在并行区域结束后，将拥有最后一个退出并行区域的线程的变量值。
使用场景：当您希望在并行区域中进行一系列计算，并最终将某个线程的计算结果作为主线程中变量的值时，可以使用 lastprivate。

示例：

int x = 0;
#pragma omp parallel lastprivate(x)
{
    x = omp_get_thread_num(); // 每个线程设置自己的 x 值
}
// 主线程中的 x 将是最后一个退出并行区域的线程的编号

reduction

作用：reduction 子句用于在并行区域中执行归约操作，即将多个线程的计算结果合并为一个单一的结果。OpenMP 支持多种归约操作符，如 +、-、*、&、|、^、&&、|| 以及用户自定义的归约操作符。
使用场景：当您需要在并行区域中对多个线程的计算结果进行汇总时，可以使用 reduction。例如，计算数组元素的总和、最大值或最小值等。

示例：

int sum = 0;
#pragma omp parallel for reduction(+:sum)
for (int i = 0; i < N; i++) {
    sum += array[i]; // 多个线程同时计算数组元素的总和
}
// 主线程中的 sum 是数组元素的总和

注意：在使用 reduction 时，必须确保归约变量在并行区域外有正确的初始值，并且归约操作符对于您的计算是合适的。

9.2 数据规约类子句

reduction(operator:list)

作用：对变量进行规约操作（求和/积/最大/最小等）
支持操作：+, *, max, min, &, | 等

int sum = 0;
#pragma omp parallel for reduction(+:sum)
for(int i=0; i<100; i++){
    sum += i; // 自动合并各线程的sum副本
}

9.3 任务调度类子句

schedule(kind[,chunk_size])

调度策略：
- static：预先平均分配（默认）
- dynamic：动态分配（按需获取）
- guided：大块开始，逐渐减小块大小
- auto：由编译器决定

#pragma omp parallel for schedule(dynamic, 4)
for(int i=0; i<1000; i++){...}

collapse(n)

作用：合并嵌套循环的并行化

#pragma omp parallel for collapse(2)
for(int i=0; i<100; i++){
    for(int j=0; j<50; j++){...}
}

9.4 线程控制类子句

num_threads(num)

作用：显式指定使用的线程数

#pragma omp parallel num_threads(4)
{...}

ordered

作用：在并行循环中强制顺序执行部分代码

#pragma omp parallel for ordered
for(int i=0; i<100; i++){
    #pragma omp ordered
    printf("%d ", i); // 按顺序输出
}

9.5 同步控制类子句

nowait

作用：消除隐式屏障（barrier）

#pragma omp sections nowait
{
    #pragma omp section
    { task1(); }
    #pragma omp section
    { task2(); }
}
// 此处无隐式同步

9.6 其他重要子句

if(condition)

作用：条件并行化

int big_problem = 1;
#pragma omp parallel if(big_problem)
{...}

copyin(list)

作用：将主线程变量值复制到各线程

int master_val = 42;
#pragma omp parallel copyin(master_val)
{...}

使用建议：

优先使用 default(none) 强制显式声明变量作用域
对共享变量必须使用同步机制（atomic/critical等）
根据负载特征选择合适的调度策略
使用 reduction 替代手工实现规约操作
通过 num_threads 控制线程资源分配

10 最佳线程数

在某些情况下，过多的线程可能会导致线程争用（thread contention）和上下文切换（context switching）开销，反而降低性能。

所以使用线程时可以确定最佳线程数。

了解CPU核心数和线程数

CPU核心数：指CPU内部独立的处理单元数量。每个核心都可以独立执行指令。
线程数：每个CPU核心可以支持的并发线程数。现代CPU通常支持每个核心多个线程（如超线程技术）。

计算总线程数

总线程数 = CPU核心数 × 每个核心的线程数
例如，如果一个CPU有4个核心，每个核心支持2个线程，那么总线程数就是8。

最佳线程数的计算需结合任务类型和资源利用率，以下是两种常见场景的计算方法：

CPU 密集型任务

公式：最佳线程数 = CPU 逻辑核心数 + 1
示例：8 核 CPU → 9 线程
适用场景：大量计算（如视频编码、数学建模）
理论依据：多 1 个线程可避免线程阻塞导致的 CPU 周期浪费

IO 密集型任务

公式：最佳线程数 = (线程等待时间/线程CPU时间 + 1) * CPU逻辑核心数
示例：

若线程 CPU 时间 0.5s，等待时间 1.5s
8 核 CPU → ((1.5+0.5)/0.5)*8 = 32 线程
适用场景：网络请求/文件读写等含阻塞操作的任务

动态调整建议

压测验证：理论值需通过实际压力测试校准
混合型任务：采用加权公式 (CPU耗时占比 + IO耗时占比) * 核数
极端场景：
- 纯代理类 IO 任务：线程数 ≈ 预期 QPS
- 纯计算任务：线程数 ≤ 核数 + 1

辅助工具

Linux 查看逻辑核心数：nproc 或 lscpu | grep "CPU(s)"
Windows：任务管理器 → 性能选项卡 → 逻辑处理器数量

建议先通过公式计算理论值，再结合 jmeter/wrk 等工具进行实际场景压测验证。