最近在使用CUDA时,遇到某次代码在执行时,直接跳过CUDA核函数。
又由于CUDA程序本身不是非常便于调试,所以在此时如果能知道程序为什么会报错,对进一步代码改正会有非常大的帮助。
解决方案
在核函数之后,添加一行代码。使用此函数,就会输出核函数非常正常执行的原因。
cudaError_t cudaStatus = cudaGetLastError();
if (cudaStatus != cudaSuccess)
{
fprintf(stderr, "addKernel launch failed: %s\n", cudaGetErrorString(cudaStatus));
goto Error;
}
示例
首先我将演示一下该现象,使用的代码是CUDA本身自带的向量加法计算器,我只对核函数进行了修改,代码如下:
__global__ void addKernel(int *c, const int *a, const int *b)
{
double test1[20000000];//看起来很夸张,但主要是示例
int i = threadIdx.x;
c[i] = a[i] + b[i];
}
得到程序错误原因,结果如下。
addKernel launch failed: invalid argument
addWithCuda failed!请按任意键继续.