cublas 实战

本文介绍了如何使用cublas库进行CUDA编程,以提高矩阵运算的效率。通过入门指南和实例,展示了如何利用cublas进行浮点数乘法,并解释了列优先存储和矩阵转置的概念。最后,给出了一个简单的cublasSgemv函数应用示例,用于实现特定的矩阵向量运算。
摘要由CSDN通过智能技术生成

导言

搞了一段时间的CUDA程序,虽然也不是写不出复杂程序,但是写个矩阵乘法都要搞个半天,还要担心各种性能瓶颈。不过,还好有cublas,实现了非常多的数学运算,这下子可以好好利用一番。以后再也不用担心自己写的CUDA效率不高了。

入门

cuBLAS的官方文档再这里,不懂的函数可以查。

cublas和matlab非常像,存储数组时,默认是列优先存储,而且是从1开始的。从C转过来,非常不习惯,不过你可以自己设置。

用 cublas之前你必须还是得会基本的CUDA,比如如何管理GPU显存。这里假设你都会了。

实例一

#include <stdio.h> 
#include <stdlib.h> 
#include <math.h>
#include <cuda_runtime.h> 
#include "cublas_v2.h" 

#define M 6 
#define N 5 
#define IDX2F(i,j,ld) ((((j)-1)*(ld))+((i)-1)) 

static __inline__ 
void modify(cublasHandle_t handle, float *m, int ldm, int n, 
            int p, int q, float alpha, float beta) {
    cublasSscal(handle, n - p + 1, &alpha, &m[IDX2F(p, q, ldm)], ldm);
    cublasSscal(handle, ldm - p + 1, &beta, &m[IDX2F(p, q, ldm)], 1);
}
int main(void) {
    cudaError_t cudaStat;
    cublasStatus_t stat;
    cublasHandle_t handle;
    int i, j;
    float* devPtrA;
    float* a = 0;
    a = (float *)malloc(M * N * sizeof(*a));
    if (!a) {
        printf("host memory allocation failed");
        return EXIT_FAILURE;
    }
    for (j = 1; j <= N; j++) {
        for (i = 1; i <= M; i++) {
            a[IDX2F(i, j, M)] = (float)((i - 1) * M + j);
        }
    }
    cudaStat = cudaMalloc((void**)&devPtrA, M*N*sizeof(*a));
    if (cudaStat != cudaSuccess) {
        printf("device memory allocation failed"); return EXIT_FAILURE;
    }
    stat = cublasCreate(&handle);
    if (stat != CUBLAS_STATUS_SUCCESS) {
        printf("CUBLAS initialization failed\n");
        return EXIT_FAILURE;
    }
    stat = cublasSetMatrix(M, N, sizeof(*a), a, M, devPtrA, M);
    if (stat != CUBLAS_STATUS_SUCCESS) {
        printf("data download failed");
        cudaFree(devPtrA); 
        cublasDestroy(handle);
        return EXIT_FAILURE;
    }
    modify(handle, devPtrA, M, N, 2, 3, 16.0f, 12.0f);
    stat = cublasGetMatrix(M, N, sizeof(*a), devPtrA, M, a, M);
    if (stat != CUBLAS_STATUS_SUCCESS) {
        printf("data upload failed");
        cudaFree(devPtrA); cublasDestroy(handle);
        re
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值