cublasGemmEx函数应用-探究8bit矩阵乘

最新推荐文章于 2025-04-13 10:03:32 发布

大光叔叔

最新推荐文章于 2025-04-13 10:03:32 发布

阅读量9.4k

点赞数 3

分类专栏： CUDA进阶文章标签： cublas TensorRT INT8

本文链接：https://blog.csdn.net/litdaguang/article/details/72630165

版权

CUDA进阶专栏收录该内容

12 篇文章

订阅专栏

介绍

cublasGemmEx 是CUDA8.0中cuBLAS新出的函数，是cublasgemm()类函数的扩展，也是目前来看功能最强大的矩阵乘函数了。该函数另一强大之处在于支持多种计算模式（compute type），其中就包括CUDA 8.0新出的FP16和INT8。但是该函数的文档并不太健全，最近在使用这个函数实现INT8矩阵乘的时候就碰见坑了，照着文档用就是报错，找NVIDIA的工程师才给解决。下面总结一下使用经验，把坑填上，以防大家再踩。

函数原型

cublasStatus_t cublasGemmEx(cublasHandle_t handle, 
                            cublasOperation_t transa, 
                            cublasOperation_t transb, 
                            int m, 
                            int n, 
                            int k, 
                            const void *alpha, 
                            const void *A, 
                            cudaDataType_t Atype, 
                            int lda, 
                            const void *B, 
                            cudaDataType_t Btype, 
                            int ldb, 
                            const void *beta, 
                            void *C, 
                            cudaDataType_t Ctype, 
                            int ldc, 
                            cudaDataType_t computeType, 
                            cublasGemmAlgo_t algo)

跟cublasSgemm长的比较像，但是多了这么几个参数，Atype，Btype，Ctype，computeType和algo。

这个函数的核心就是计算模式（computeType），computeType支持以下类型：

computeType	解释
CUDA_R_16F	FP16计算模式，输入输出都是FP16
CUDA_R_32F	FP32计算模式，这个比较强大，输入可以是FP16、INT8和FP32
CUDA_R_32I	INT8计算模式，也是本文着重要讲的模式
CUDA_R_64F	FP64计算模式
CUDA_C_32F
CUDA_C_64F

每个computeType支持的输入类型和输出类型在cublasGemmEx文档中写的非常清楚，照着用就行了。但是，有一个隐含的坑就在CUDA_R_32I计算模式里。

正常按照 char *A， char *B, int *C是会报错CUBLAS_STATUS_NOT_SUPPORTED，这个错误官方的解释是“the combination of the parameters Atype, Btype and Ctype and the algorithm type, algo is not supported”，大概意思就是Atype，Btype，Ctype，和algo不匹配。但是明明是按文档上写的啊，因为错误根本不在这里。