cuda-GPU 加速
__global__ :主机调用,声明设备函数,在设备上(gpu)执行__device__ :设备上执行并从设备上调用__host__:其他主机调用的主机函数cudaMalloc,设备上分配内存cudaMemcpy。别存复制到主机或设备上cudaFree,释放内存cudaGetLastError(); 可以获取启动gpu内核错误cudaDeviceSynchronize(),等待所有核完成工作,返回任何中间的错误,注意这里很重要的一点是这里会等待device完成操作,因为启动





