CUDA编程 5 执行流和运行库【参加CUDA线上训练营】

Wrynn<Wang>

已于 2023-02-14 12:34:52 修改

阅读量210

点赞数

分类专栏： Cuda 编程文章标签：开发语言 c++

于 2023-02-14 02:14:29 首次发布

本文链接：https://blog.csdn.net/m0_60269818/article/details/129019992

版权

Cuda 编程专栏收录该内容

7 篇文章 0 订阅

订阅专栏

1. CUDA流

CUDA流是在CUDA并行编程模型中用于管理并行任务的单元。它提供了一种方法来组织多个Kernel的执行顺序，从而可以控制Kernel之间的同步。CUDA流是由多个线程组成的，线程以块的形式运行在一个计算单元上，每个线程执行一个Kernel。

一个CUDA流可以用于管理多个Kernel，其中每个Kernel可以在不同的线程块中并行运行。这样，开发者可以更灵活地设置执行顺序，同时管理多个Kernel的并行执行。此外，CUDA流还提供了同步机制，以确保Kernel之间的执行顺序。

使用CUDA流编写代码需要遵循一些原则，包括对线程块的组织，对共享存储器的管理，以及对错误的处理。在实际的开发过程中，开发者需要对程序进行优化，以确保最佳性能。

2. cuBLAS

cuBLAS是CUDA平台上的一组高性能的BLAS（Basic Linear Algebra Subprograms）库。它提供了一组标准的线性代数运算，例如矩阵乘法、矩阵点乘和向量范数计算等，这些运算在计算机科学和工程领域中非常重要。

cuBLAS通过将算法转换为CUDA内核来加速运算，可以利用GPU的计算能力来实现高效的计算。它提供了一个简单易用的接口，使用者可以方便地调用cuBLAS库中的函数，而不需要关注底层的实现细节。

cuBLAS适用于许多不同的应用场景，例如图像处理、数据分析、机器学习等。此外，cuBLAS还支持多GPU环境，可以在多个GPU之间进行分布式计算，从而加速大规模的计算任务。

总的来说，cuBLAS是一个高效实用的CUDA平台上的线性代数库，是加速科学计算和工程应用的重要工具。

课后作业：

1. 尝试调用cublas做矩阵乘法和向量加法操作

#include <cuda_runtime.h>
#include <cublas_v2.h>
#include <iostream>

const int N = 3;

int main() {
    // Step 1: Initialize CUBLAS
    cublasHandle_t handle;
    cublasCreate(&handle);

    // Step 2: Allocate device memory
    float *A, *B, *C;
    cudaMalloc((void **)&A, N * N * sizeof(float));
    cudaMalloc((void **)&B, N * N * sizeof(float));
    cudaMalloc((void **)&C, N * N * sizeof(float));

    // Step 3: Copy data from host to device
    float h_A[N][N] = {{1, 2, 3}, {4, 5, 6}, {7, 8, 9}};
    float h_B[N][N] = {{10, 11, 12}, {13, 14, 15}, {16, 17, 18}};
    float h_C[N][N] = {{0, 0, 0}, {0, 0, 0}, {0, 0, 0}};
    cudaMemcpy(A, h_A, N * N * sizeof(float), cudaMemcpyHostToDevice);
    cudaMemcpy(B, h_B, N * N * sizeof(float), cudaMemcpyHostToDevice);

    // Step 4: Call CUBLAS to perform matrix multiplication
    const float alpha = 1.0f;
    const float beta = 0.0f;
    cublasSgemm(handle, CUBLAS_OP_N, CUBLAS_OP_N, N, N, N, &alpha, A, N, B, N, &beta, C, N);

    // Step 5: Copy result from device to host
    cudaMemcpy(h_C, C, N * N * sizeof(float), cudaMemcpyDeviceToHost);

    // Step 6: Print result
    for (int i = 0; i < N; ++i) {
        for (int j = 0; j < N; ++j) {
            std::cout << h_C[i][j] << " ";
        }
        std::cout << std::endl;
    }

    // Step 7: Clean up
    cudaFree(A);
    cudaFree(B);
    cudaFree(C);
    cublasDestroy(handle);
    return 0;
}

2. 如果本地文件存储着2个1000000*1000000的矩阵，我们想将这两个矩阵进行乘积，如何操作？

#include <iostream>
#include <cuda_runtime.h>
#include <cublas_v2.h>

#define M 1000000
#define N 1000000

__global__ void matrixMultiplicationKernel(float *A, float *B, float *C, int width) {
  int col = blockIdx.x * blockDim.x + threadIdx.x;
  int row = blockIdx.y * blockDim.y + threadIdx.y;
  
  if (col < width && row < width) {
    float value = 0;
    for (int i = 0; i < width; ++i) {
      value += A[row * width + i] * B[i * width + col];
    }
    C[row * width + col] = value;
  }
}

int main() {
  // 数据初始化
  float *h_A, *h_B, *h_C;
  h_A = new float[M * N];
  h_B = new float[M * N];
  h_C = new float[M * N];

  for (int i = 0; i < M * N; ++i) {
    h_A[i] = i;
    h_B[i] = i;
  }

  // 分配GPU内存并复制数据
  float *d_A, *d_B, *d_C;
  cudaMalloc((void**)&d_A, M * N * sizeof(float));
  cudaMalloc((void**)&d_B, M * N * sizeof(float));
  cudaMalloc((void**)&d_C, M * N * sizeof(float));

  cudaMemcpy(d_A, h_A, M * N * sizeof(float), cudaMemcpyHostToDevice);
  cudaMemcpy(d_B, h_B, M * N * sizeof(float), cudaMemcpyHostToDevice);

  // 设置线程数和块数
  dim3 blockDim(32, 32);
  dim3 gridDim((N + blockDim.x - 1) / blockDim.x, (N + blockDim.y - 1) / blockDim.y);
  
  // 执行矩阵乘法操作
  matrixMultiplicationKernel<<<gridDim, blockDim>>>(d_A, d_B, d_C, N);
  
  // 复制计算结果到主内存并释放GPU内存
  cudaMemcpy(h_C, d_C, M * N * sizeof(float), cudaMemcpyDeviceToHost);

Wrynn<Wang>

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
CUDA编程 5 执行流和运行库【参加CUDA线上训练营】

CUDA流是由多个线程组成的，线程以块的形式运行在一个计算单元上，每个线程执行一个Kernel。它提供了一个简单易用的接口，使用者可以方便地调用cuBLAS库中的函数，而不需要关注底层的实现细节。此外，cuBLAS还支持多GPU环境，可以在多个GPU之间进行分布式计算，从而加速大规模的计算任务。使用CUDA流编写代码需要遵循一些原则，包括对线程块的组织，对共享存储器的管理，以及对错误的处理。总的来说，cuBLAS是一个高效实用的CUDA平台上的线性代数库，是加速科学计算和工程应用的重要工具。
复制链接

扫一扫