OpenCL C++ 入门

最新推荐文章于 2025-05-19 08:00:00 发布

byxdaz

最新推荐文章于 2025-05-19 08:00:00 发布

阅读量965

点赞数 29

分类专栏： OpenCL 文章标签： opencl

本文链接：https://blog.csdn.net/byxdaz/article/details/147951633

版权

OpenCL 专栏收录该内容

11 篇文章

订阅专栏

OpenCL (Open Computing Language) 是一个用于并行编程的开放标准，特别适合异构系统（如CPU+GPU）上的计算。以下是OpenCL C++编程的入门介绍。

1. OpenCL 基本概念

OpenCL 包含几个核心概念：

平台(Platform): 硬件供应商提供的OpenCL实现（如NVIDIA、AMD、Intel等）
设备(Device): 执行计算的硬件（GPU、CPU、FPGA等）
上下文(Context): 管理资源和执行的环境
命令队列(Command Queue): 向设备提交命令的机制
内核(Kernel): 在设备上执行的函数
内存对象(Memory Object): 设备上的内存（缓冲区、图像等）

2. C++ 绑定安装

OpenCL 提供了C++绑定，比C API更易于使用。大多数OpenCL实现已经包含了C++头文件：

cpp

#include <CL/cl.hpp>

3. 基本编程步骤

3.1 选择平台和设备

cpp

std::vector<cl::Platform> platforms;
cl::Platform::get(&platforms);

// 选择第一个平台
cl::Platform platform = platforms[0];

std::vector<cl::Device> devices;
platform.getDevices(CL_DEVICE_TYPE_GPU, &devices);

// 选择第一个设备
cl::Device device = devices[0];

3.2 创建上下文和命令队列

cpp

cl::Context context(device);
cl::CommandQueue queue(context, device);

3.3 创建程序对象

cpp

const char* kernelSource = R"(
    __kernel void vector_add(__global const float* a,
                            __global const float* b,
                            __global float* result)
    {
        int gid = get_global_id(0);
        result[gid] = a[gid] + b[gid];
    }
)";

cl::Program::Sources sources;
sources.push_back({kernelSource, strlen(kernelSource)});

cl::Program program(context, sources);
program.build({device});

3.4 创建内核和内存对象

cpp

cl::Kernel kernel(program, "vector_add");

// 准备数据
std::vector<float> a = {1, 2, 3, 4};
std::vector<float> b = {5, 6, 7, 8};
std::vector<float> result(4);

// 创建缓冲区
cl::Buffer bufferA(context, CL_MEM_READ_ONLY | CL_MEM_COPY_HOST_PTR, 
                   sizeof(float) * a.size(), a.data());
cl::Buffer bufferB(context, CL_MEM_READ_ONLY | CL_MEM_COPY_HOST_PTR, 
                   sizeof(float) * b.size(), b.data());
cl::Buffer bufferResult(context, CL_MEM_WRITE_ONLY, 
                       sizeof(float) * result.size());

3.5 设置内核参数并执行

cpp

kernel.setArg(0, bufferA);
kernel.setArg(1, bufferB);
kernel.setArg(2, bufferResult);

queue.enqueueNDRangeKernel(kernel, cl::NullRange, cl::NDRange(4), cl::NullRange);
queue.finish(); // 等待执行完成

3.6 读取结果

cpp

queue.enqueueReadBuffer(bufferResult, CL_TRUE, 0, 
                       sizeof(float) * result.size(), result.data());

for (float f : result) {
    std::cout << f << " ";
}
// 输出: 6 8 10 12

4. 完整示例代码

cpp

#include <CL/cl.hpp>
#include <iostream>
#include <vector>

int main() {
    try {
        // 获取平台和设备
        std::vector<cl::Platform> platforms;
        cl::Platform::get(&platforms);
        cl::Platform platform = platforms[0];
        
        std::vector<cl::Device> devices;
        platform.getDevices(CL_DEVICE_TYPE_GPU, &devices);
        cl::Device device = devices[0];
        
        // 创建上下文和命令队列
        cl::Context context(device);
        cl::CommandQueue queue(context, device);
        
        // 创建程序
        const char* kernelSource = R"(
            __kernel void vector_add(__global const float* a,
                                    __global const float* b,
                                    __global float* result)
            {
                int gid = get_global_id(0);
                result[gid] = a[gid] + b[gid];
            }
        )";
        
        cl::Program::Sources sources;
        sources.push_back({kernelSource, strlen(kernelSource)});
        cl::Program program(context, sources);
        program.build({device});
        
        // 创建内核
        cl::Kernel kernel(program, "vector_add");
        
        // 准备数据和缓冲区
        std::vector<float> a = {1, 2, 3, 4};
        std::vector<float> b = {5, 6, 7, 8};
        std::vector<float> result(4);
        
        cl::Buffer bufferA(context, CL_MEM_READ_ONLY | CL_MEM_COPY_HOST_PTR, 
                          sizeof(float) * a.size(), a.data());
        cl::Buffer bufferB(context, CL_MEM_READ_ONLY | CL_MEM_COPY_HOST_PTR, 
                          sizeof(float) * b.size(), b.data());
        cl::Buffer bufferResult(context, CL_MEM_WRITE_ONLY, 
                              sizeof(float) * result.size());
        
        // 设置内核参数并执行
        kernel.setArg(0, bufferA);
        kernel.setArg(1, bufferB);
        kernel.setArg(2, bufferResult);
        
        queue.enqueueNDRangeKernel(kernel, cl::NullRange, cl::NDRange(4), cl::NullRange);
        queue.finish();
        
        // 读取结果
        queue.enqueueReadBuffer(bufferResult, CL_TRUE, 0, 
                              sizeof(float) * result.size(), result.data());
        
        // 输出结果
        for (float f : result) {
            std::cout << f << " ";
        }
        std::cout << std::endl;
        
    } catch (cl::Error& e) {
        std::cerr << "OpenCL error: " << e.what() << " (" << e.err() << ")" << std::endl;
        return 1;
    }
    
    return 0;
}