CMake+OpenMP加速运算测试

14 篇文章 0 订阅
9 篇文章 0 订阅

写在前面

1、本文内容
cmake编译测试openmp的效果

2、平台/环境
windows/linux均可,cmake
3、转载请注明出处:
https://blog.csdn.net/qq_41102371/article/details/131629705

代码

代码包含同样的for循环使用openmp加速,使用openmp加速并使用critical,不使用openmp的测试, 代码目录结构如下,请将test_openmp.cpp和CMakeLists.txt放入src
在这里插入图片描述
test_openmp.cpp

#include <iostream>
#include <vector>
#include <chrono>

#include <omp.h>

void computeWithOpenMP(const std::vector<int> &data)
{
    // #pragma omp parallel
    {
        std::vector<int> result(data.size());
#pragma omp parallel for
        for (int i = 0; i < data.size(); ++i)
        {
            if (i >= 0 && i <= 1000000)
            {
                // 使用 OpenMP 并行计算
                result[i] = data[i] * 2;
            }
        }
    }
}

void computeWithOpenMPCritical(const std::vector<int> &data)
{
    {
        std::vector<int> result(data.size());
        int count = 0;
#pragma omp parallel for
        for (int i = 0; i < data.size(); ++i)
        {
            if (i >= 0 && i <= 1000000)
            {
#pragma omp critical

                // 使用 OpenMP 并行计算
                result[i] = data[i] * 2;
            }
        }
    }
}

void computeWithoutOpenMP(const std::vector<int> &data)
{
    std::vector<int> result(data.size());
    for (int i = 0; i < data.size(); ++i)
    {
        // 未使用 OpenMP,串行计算
        if (i >= 0 && i <= 1000000)
        {
            result[i] = data[i] * 2;
        }
    }
}


int main(int argc, char **argv)
{
#ifdef _OPENMP
    std::cout << "use _OPENMP" << std::endl;
    std::cout << "max tread: " << omp_get_max_threads() << std::endl;
#else
    std::cout << "no _OPENMP" << std::endl;
#endif
    int size = std::atoi(argv[1]);
    std::vector<int> data(size, 1);

    // 使用 OpenMP 加速的计算
    auto start = std::chrono::high_resolution_clock::now();
    computeWithOpenMP(data);
    auto end = std::chrono::high_resolution_clock::now();
    auto durationOpenMP = std::chrono::duration_cast<std::chrono::microseconds>(end - start).count() / 1000.0;

    // 使用 OpenMP 加速,并使用了critical
    start = std::chrono::high_resolution_clock::now();
    computeWithOpenMPCritical(data);
    end = std::chrono::high_resolution_clock::now();
    auto durationOpenMPCritical = std::chrono::duration_cast<std::chrono::microseconds>(end - start).count() / 1000.0;

    // 未使用 OpenMP 的计算
    start = std::chrono::high_resolution_clock::now();
    computeWithoutOpenMP(data);
    end = std::chrono::high_resolution_clock::now();
    auto durationNoOpenMP = std::chrono::duration_cast<std::chrono::microseconds>(end - start).count() / 1000.0;

    // 打印时间结果
    std::cout << "With OpenMP: " << durationOpenMP << " ms" << std::endl;
    std::cout << "With OpenMPCritical: " << durationOpenMPCritical << " ms" << std::endl;
    std::cout << "No OpenMP: " << durationNoOpenMP << " ms" << std::endl;
    return 0;
}

CMakeLists.txt

cmake_minimum_required(VERSION 3.18)
project(TestOpenMP)

find_package(OpenMP)
add_executable(test_openmp ./test_openmp.cpp)
if(OpenMP_CXX_FOUND)
    target_link_libraries(test_openmp OpenMP::OpenMP_CXX)
endif()

compile.bat

cmake -DCMAKE_BUILD_TYPE=Release -S ./src -B ./build
cmake --build ./build --config Release --target ALL_BUILD

run.bat

.\build\Release\test_openmp.exe 500000000

其中参数500000000是数据量,测试时修改不同值看效果

编译运行

编译

cd test_openmp
./compile.bat

运行

./run.bat

下面是数据量是500000000是在笔记本i7-12700H上的结果
在这里插入图片描述
请通过第一个打印信息use _OPENMP或者no _OPENMP来判断openmp是否正常配置或可用

关于加速效果

根据实测,加速效果根据硬件、for循环的计算内容、数据量而不同,有时候还看运气。
下面是chatgpt关于openmp加速效果的回答:
当使用 OpenMP 进行并行化时,性能的提升并不是绝对的,它取决于多个因素,包括但不限于以下几点:

  1. 并行化开销:并行化需要额外的开销来进行线程间的同步和任务划分。当问题规模较小时,这些开销可能会超过并行化带来的性能收益,从而导致性能下降。

  2. 数据访问模式:并行化的效果受到数据访问模式的影响。如果数据访问存在竞争条件或者导致缓存冲突,那么并行化可能会导致性能下降。在某些情况下,串行执行可能更有效。

  3. 硬件资源限制:并行化的效果受到可用的硬件资源限制的影响。如果系统的物理核心数有限,而问题规模较大,那么并行化的效果可能会受到限制。

  4. 任务粒度:任务的粒度越细,可以提供更好的负载平衡和并行化效果。如果任务过于细小,可能会导致线程间的同步开销超过并行化带来的性能收益。

在使用 OpenMP 进行并行化时,可以尝试以下几种方法来判断是否应该使用 OpenMP:

  • 基于经验:根据以往的经验,对问题规模、计算复杂度和硬件环境进行评估。如果问题规模较大,计算复杂度高,并且有足够的硬件资源,那么可能值得尝试使用 OpenMP 进行并行化。

  • 性能分析:使用性能分析工具(如 perfgprofIntel VTune 等)来评估串行代码的性能瓶颈,并检查是否存在并行化的潜在机会。通过性能分析,可以确定哪些代码段可以获得较大的性能提升,并尝试将其并行化。

  • 实验验证:根据问题规模和计算复杂度,在小规模的样本上进行实验验证。比较串行和并行化的性能,并根据实验结果来决定是否使用 OpenMP 进行并行化。

重要的是要记住,并行化并不总是能够带来性能提升,有时甚至可能导致性能下降。在决定是否使用 OpenMP 进行并行化时,需要进行合理的评估和实验验证,结合问题的特点和硬件环境,做出明智的决策。

参考

CMakeLists 增加 OpenMP 的支持
CMake+OpenMP编译运行最简单的c++代码

主要做激光/影像三维重建,配准、分割等常用点云算法,技术交流、咨询可私信

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
以下是使用CMake和VSCode进行项目配置和开发的步骤: 1. 首先,确保已经安装了CMake和VSCode。可以使用以下命令来检查它们的安装情况: ```shell cmake --version code --version ``` 2. 打开VSCode,并安装以下插件:C/C++CMakeCMake Tools。可以在VSCode的扩展商店中搜索并安装这些插件。 3. 创建一个新的文件夹作为你的项目文件夹,并在该文件夹中创建一个CMakeLists.txt文件。这个文件将用于配置你的项目。 4. 在CMakeLists.txt文件中,编写CMake的配置指令。例如,你可以指定项目的名称、源文件、编译选项等。以下是一个简单的示例: ```cmake cmake_minimum_required(VERSION 3.10) project(MyProject) set(CMAKE_CXX_STANDARD 11) add_executable(MyProject main.cpp) ``` 5. 在VSCode中打开你的项目文件夹。然后,点击左侧的“CMake”图标,它将打开一个侧边栏,显示CMake工具的选项。 6. 在CMake工具的侧边栏中,点击“Configure”按钮。它将提示你选择一个工具链,例如GCC或Clang。选择你想要使用的工具链,并等待配置过程完成。 7. 配置完成后,点击“Build”按钮来构建你的项目。构建过程将在终端中显示,并生成可执行文件。 8. 如果构建成功,你可以点击“Run”按钮来运行你的项目。它将在终端中显示程序的输出结果。 9. 在开发过程中,你可以使用VSCode的调试功能来调试你的项目。点击左侧的“调试”图标,然后点击“启动调试”按钮。它将在VSCode中启动一个调试会话,并允许你设置断点、单步执行等操作。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

诺有缸的高飞鸟

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值