one api图像卷积并行加速

CCommander

已于 2023-12-01 18:48:40 修改

阅读量40

点赞数

文章标签： c++ 矩阵

于 2023-12-01 18:21:19 首次发布

本文链接：https://blog.csdn.net/CCommander/article/details/134741385

版权

one api图像卷积并行加速

题目
题解
代码

题目

描述
使用基于oneAPI的C++/SYCL实现一个用于计算图像的卷积操作。输⼊为一个图像矩阵和一个卷积核矩阵，输
出为卷积后的图像。

题解

图像卷积是一种常见的图像处理操作，用于应用各种滤波器和特征检测器。其原理可以简单地描述为在图像的
每个像素上应用一个小的矩阵（通常称为卷积核或滤波器），并将卷积核中的元素与图像中对应位置的像素值
相乘，然后将所有乘积的和作为结果。这个过程可以看作是对图像进行了平滑、锐化、边缘检测等操作。
假设有⼀个大小为M × N 的输入图像I 和一个大小为m × n 的卷积核 K 。图像卷积操作可以用下面的数学公
式来表示：
其中， S(i, j)是卷积操作的结果图像中位置 (i, j) 处的像素值。 I(i + k, j + l) 是图像中位置 (i + k, j + l) 处的像
素值， K(k, l) 是卷积核中位置 (k, l) 处的权重。卷积核通常是一个小的⼆维矩阵，用于捕捉图像中的特定特征。
在异构计算编程中，可以使用并行计算来加速图像卷积操作。通过将图像分割成小块，然后在GPU上并行处理
这些块，可以实现高效的图像卷积计算。通过合理的块大小和线程组织方式，可以最大限度地利用GPU的并行
计算能力来加速图像处理过程。
基于GPU的图像卷积操作的原理基于并行处理和矩阵乘法的基本原理，通过将图像数据和卷积核数据分配给不
同的线程块和线程，利用GPU的并行计算能力实现对图像的快速处理。

程序中的并行计算主要通过 SYCL（Synchronous Compute Language）来实现。程序中进行并行运算的详细过程：
创建队列（Queue）：
使用 sycl::queue 创建 SYCL 队列，代表了执行并行计算的设备。在这个例子中，设备由 SYCL 运行时自动选择。
创建缓冲区（Buffer）：
使用 sycl::buffer 创建缓冲区，用于在主机和设备之间传递数据。三个缓冲区分别用于输入矩阵 (bufferA)、核矩阵 (bufferB) 和结果矩阵 (bufferResult)。

sycl::buffer<float, 2> bufferA(matrix, sycl::range<2>{M1, N1});
sycl::buffer<float, 2> bufferB(kernel, sycl::range<2>{M2, N2});
sycl::buffer<float, 2> bufferResult(result, sycl::range<2>{M3, N3});

提交并行计算任务：
使用 q.submit 提交并行计算任务。在这里，使用 q.submit 的 Lambda 表达式定义了并行计算的操作。
在 Lambda 表达式中，使用 sycl::handler 来设置并行计算的执行环境。

q.submit([&](sycl::handler& h) {
    // Lambda 表达式中的并行计算操作
}).wait();

设置访问器（Accessor）：
使用 get_access 函数获取对缓冲区的访问权限。在这里，分别获取了输入矩阵 (bufferA)、核矩阵 (bufferB) 和结果矩阵 (bufferResult) 的访问器。
sycl::access::mode::read 表示只读权限，sycl::access::mode::write 表示写权限。

auto accessorA = bufferA.get_access<sycl::access::mode::read>(h);
auto accessorB = bufferB.get_access<sycl::access::mode::read>(h);
auto accessorResult = bufferResult.get_access<sycl::access::mode::write>(h);

并行计算核心逻辑：
使用 h.parallel_for 来指定并行计算的范围和核心逻辑。在这里，使用了一个嵌套的循环来执行矩阵乘法的计算。

h.parallel_for<class MatrixMultiply>(globalRange, [=](sycl::id<2> idx) {
    // 并行计算的核心逻辑
});

globalRange 定义了全局的计算范围，表示在结果矩阵上进行并行计算。
等待任务完成：
使用 wait() 等待任务的完成。这确保在主机访问结果矩阵数据之前，设备上的并行计算已经完成。
这样，整个过程就实现了使用 SYCL 进行并行计算的功能。在并行计算中，输入矩阵的元素通过访问器在设备上进行读取，计算后的结果写入到结果矩阵的访问器中，最终从设备中读取结果并写入到输出文件中。 SYCL 提供了一种方便的方式来利用设备的并行计算能力，提高计算密集型任务的性能。

代码

#include <SYCL/sycl.hpp>
#include <iostream>
#include <fstream>
#include <string>
#include <sstream>
#include <iomanip>

class MatrixMultiplier {
public:
    MatrixMultiplier(const std::string& inputFilename, const std::string& outputFilename)
        : inputFilename(inputFilename), outputFilename(outputFilename) {}

    void run() {
        readMatricesFromFile();
        performMatrixMultiplication();
        writeResultToFile();
    }

private:
    const size_t M1 = 100;
    const size_t N1 = 100;
    const size_t M2 = 5;
    const size_t N2 = 5;
    const size_t M3 = 96;
    const size_t N3 = 96;

    std::string inputFilename;
    std::string outputFilename;
    float* matrix;
    float* kernel;
    float* result;

    void readMatricesFromFile() {
        std::ifstream infile(inputFilename);
        std::string line;

        std::getline(infile, line);
        initializeMatrix(matrix, M1, N1, infile);

        std::getline(infile, line);
        std::getline(infile, line);
        initializeMatrix(kernel, M2, N2, infile);
    }

    void initializeMatrix(float* matrix, size_t rows, size_t cols, std::ifstream& infile) {
        std::string line;
        int index = 0;
        for (int i = 0; i < rows; i++) {
            std::getline(infile, line);
            std::istringstream iss(line);
            double value;
            while (iss >> value) {
                matrix[index++] = value;
            }
        }
    }

    void performMatrixMultiplication() {
        sycl::queue q;

        sycl::buffer<float, 2> bufferA(matrix, sycl::range<2>{M1, N1});
        sycl::buffer<float, 2> bufferB(kernel, sycl::range<2>{M2, N2});
        sycl::buffer<float, 2> bufferResult(result, sycl::range<2>{M3, N3});

        q.submit([&](sycl::handler& h) {
            auto accessorA = bufferA.get_access<sycl::access::mode::read>(h);
            auto accessorB = bufferB.get_access<sycl::access::mode::read>(h);
            auto accessorResult = bufferResult.get_access<sycl::access::mode::write>(h);

            sycl::range<2> globalRange{M3, N3};

            h.parallel_for<class MatrixMultiply>(globalRange, [=](sycl::id<2> idx) {
                float sum = 0.0f;
                for (size_t i = 0; i < M2; i++) {
                    for (size_t j = 0; j < N2; j++) {
                        sum += accessorA[idx[0] + i][idx[1] + j] * accessorB[i][j];
                    }
                }
                accessorResult[idx] = sum;
            });
        }).wait();
    }

    void writeResultToFile() {
        sycl::host_accessor resultAccessor(bufferResult, sycl::read_only);

        std::ofstream outputFile(outputFilename);
        for (size_t i = 0; i < M3; ++i) {
            for (size_t j = 0; j < N3; ++j) {
                outputFile << std::fixed << std::setprecision(2) << result[i * N3 + j];
                outputFile << " ";
            }
            outputFile << "\n";
        }
        outputFile.close();
    }
};

int main() {
    MatrixMultiplier matrixMultiplier("test.txt", "output.txt");
    matrixMultiplier.run();

    return 0;
}