cuBLAS的使用

最新推荐文章于 2024-03-12 18:10:56 发布

JustForYouForNLP

最新推荐文章于 2024-03-12 18:10:56 发布

阅读量2.2k

点赞数 1

分类专栏： cuda专题

本文链接：https://blog.csdn.net/JustForYouForDL/article/details/102495887

版权

cuda专题专栏收录该内容

4 篇文章 0 订阅

订阅专栏

cuBLAS包含了三部分：

cuBLAS API（从cuda6.0开始）
CUBLASXT API（从cuda6.0开始）
cuBLASLt API（从cuda10.1开始）

想要使用cuBLAS API，必须按照以下步骤：

在GPU端建立矩阵或向量，并用初始化数据填充；
调用需要使用的cuBLAS函数；
将在GPU端结果传输回HOST端；

cuBLASLt API是一个轻量的矩阵-矩阵运算库（GEMM），且句柄可以复用（类似于cuFFT的句柄可以在相同大小和数据类型的数据上复用句柄）。

类似于C和C++线性存储，cuBLAS定义了取数据用的宏：

#define IDX2C(i,j,ld) (((j)*(ld))+(i))
//ld是维度，i是行，j是列，cuBLAS使用的是列存储

从cuda4.0开始cuBLAS提供了新API（header为"cublas_v2.h"），功能如下：

cuBLAS的handle可以在同样情况下复用
标量α和β可以由host端或device端传输，这样就允许了库函数在α和β都是前面kernel结果的前提下使用stream来执行异步操作。
（待续）

链接时要使用的链接库："cublas_v2.h" -> cublas.so

下面是需要使用的makefile：

NVCC = /usr/local/cuda/bin/nvcc
NVCC_FLAG_DEBUG = -g -G -Xcompiler -Wall
NVCC_FLAG_REALEASE = -Xcompiler -Wall
NVCC_LIB = -lcublas

all:cublas_sample

cublas_sample: cublas_sample.cu
    

clean:
    rm -rf ./*.o

代码示例：

//Example 1. Application Using C and CUBLAS: 1-based indexing
//-----------------------------------------------------------
#include <stdio.h>
#include <stdlib.h>
#include <math.h>
#include <cuda_runtime.h>
#include "cublas_v2.h"
#define M 6
#define N 5
#define IDX2F(i,j,ld) ((((j)-1)*(ld))+((i)-1)) //数据索引

//使用static __inline__目的是为了节约调用接口的时间，但是这样会使得程序编译后过大
static __inline__ void modify (cublasHandle_t handle, float *m, int ldm, int n, int p, int q, float alpha, float beta){
    cublasSscal (handle, n-q+1, &alpha, &m[IDX2F(p,q,ldm)], ldm);
    cublasSscal (handle, ldm-p+1, &beta, &m[IDX2F(p,q,ldm)], 1);
}

int main (void){
    cudaError_t cudaStat;    
    cublasStatus_t stat;
    cublasHandle_t handle;
    int i, j;
    float* devPtrA;
    float* a = 0;
    a = (float *)malloc (M * N * sizeof (*a));
    if (!a) {
        printf ("host memory allocation failed");
        return EXIT_FAILURE;
    }
    for (j = 1; j <= N; j++) {
        for (i = 1; i <= M; i++) {
            a[IDX2F(i,j,M)] = (float)((i-1) * M + j);
        }
    }
    cudaStat = cudaMalloc ((void**)&devPtrA, M*N*sizeof(*a));
    if (cudaStat != cudaSuccess) {
        printf ("device memory allocation failed");
        return EXIT_FAILURE;
    }
    stat = cublasCreate(&handle);
    if (stat != CUBLAS_STATUS_SUCCESS) {
        printf ("CUBLAS initialization failed\n");
        return EXIT_FAILURE;
    }
    stat = cublasSetMatrix (M, N, sizeof(*a), a, M, devPtrA, M);
    if (stat != CUBLAS_STATUS_SUCCESS) {
        printf ("data download failed");
        cudaFree (devPtrA);
        cublasDestroy(handle);
        return EXIT_FAILURE;
    }
    modify (handle, devPtrA, M, N, 2, 3, 16.0f, 12.0f);
    stat = cublasGetMatrix (M, N, sizeof(*a), devPtrA, M, a, M);
    if (stat != CUBLAS_STATUS_SUCCESS) {
        printf ("data upload failed");
        cudaFree (devPtrA);
        cublasDestroy(handle);        
        return EXIT_FAILURE;
    }    
    cudaFree (devPtrA);
    cublasDestroy(handle);
    for (j = 1; j <= N; j++) {
        for (i = 1; i <= M; i++) {
            printf ("%7.0f", a[IDX2F(i,j,M)]);
        }
        printf ("\n");
    }
    free(a);
    return EXIT_SUCCESS;
}

示例2：

//Example 2. Application Using C and CUBLAS: 0-based indexing
//-----------------------------------------------------------
#include <stdio.h>
#include <stdlib.h>
#include <math.h>
#include <cuda_runtime.h>
#include "cublas_v2.h"
#define M 6
#define N 5
#define IDX2C(i,j,ld) (((j)*(ld))+(i))

static __inline__ void modify (cublasHandle_t handle, float *m, int ldm, int n, int p, int q, float alpha, float beta){
    cublasSscal (handle, n-q, &alpha, &m[IDX2C(p,q,ldm)], ldm);
    cublasSscal (handle, ldm-p, &beta, &m[IDX2C(p,q,ldm)], 1);
}

int main (void){
    cudaError_t cudaStat;    
    cublasStatus_t stat;
    cublasHandle_t handle;
    int i, j;
    float* devPtrA;
    float* a = 0;
    a = (float *)malloc (M * N * sizeof (*a));
    if (!a) {
        printf ("host memory allocation failed");
        return EXIT_FAILURE;
    }
    for (j = 0; j < N; j++) {
        for (i = 0; i < M; i++) {
            a[IDX2C(i,j,M)] = (float)(i * M + j + 1);
        }
    }
    cudaStat = cudaMalloc ((void**)&devPtrA, M*N*sizeof(*a));
    if (cudaStat != cudaSuccess) {
        printf ("device memory allocation failed");
        return EXIT_FAILURE;
    }
    stat = cublasCreate(&handle);
    if (stat != CUBLAS_STATUS_SUCCESS) {
        printf ("CUBLAS initialization failed\n");
        return EXIT_FAILURE;
    }
    stat = cublasSetMatrix (M, N, sizeof(*a), a, M, devPtrA, M);
    if (stat != CUBLAS_STATUS_SUCCESS) {
        printf ("data download failed");
        cudaFree (devPtrA);
        cublasDestroy(handle);
        return EXIT_FAILURE;
    }
    modify (handle, devPtrA, M, N, 1, 2, 16.0f, 12.0f);
    stat = cublasGetMatrix (M, N, sizeof(*a), devPtrA, M, a, M);
    if (stat != CUBLAS_STATUS_SUCCESS) {
        printf ("data upload failed");
        cudaFree (devPtrA);
        cublasDestroy(handle);
        return EXIT_FAILURE;
    }
    cudaFree (devPtrA);
    cublasDestroy(handle);
    for (j = 0; j < N; j++) {
        for (i = 0; i < M; i++) {
            printf ("%7.0f", a[IDX2C(i,j,M)]);
        }
        printf ("\n");
    }
    free(a);
    return EXIT_SUCCESS;
}

cuBLAS错误处理：

所有的cuBLAS函数都会返回错误标志：cublasStatus_t

JustForYouForNLP

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
cuBLAS的使用

cuBLAS包含了三部分：cuBLAS API（从cuda6.0开始） CUBLASXT API（从cuda6.0开始） cuBLASLt API（从cuda10.1开始）想要使用cuBLAS API，必须按照以下步骤：在GPU端建立矩阵或向量，并用初始化数据填充；调用需要使用的cuBLAS函数；将在GPU端结果传输回HOST端；cuBLASLt API是一个轻量的矩阵-矩...
复制链接

扫一扫