记录CUDA编程时遇到的bug,error code 719,"unspecified launch failure"

在使用CUDA设计radon变换函数的时候,遇到了一个一直没有解决的bug

在本项目中需要对一张360×338的图像,从801个角度(10°到170°,间隔0.2°)进行投影变换,需要的计算量非常大,在CPU上做运算时,处理一张图像所需的时间:debug下约40s,release下约3s

在计算radon变换矩阵时,GPU操作了801个block,每个block中有338个线程,然后在每个线程中循环处理原始图像的360个像素,最后将计算结果存入到801×497的矩阵中(497是图像对角线的像素数目),因为同一个block中的线程thread可以使用共享内存,而且访问共享内存的速度会更快,所以每个block申请了大小为497×4(分别存放一个像素的4个计算结果)的共享内存。一幅图像中360×338的像素的计算结果要存入长度为497的数组中,并发线程下需要互斥访问,使用原子操作可以解决。然而由于我传入的图像数据是double型的,显卡的计算能力只有3.5,没办法使用重载double的atomicAdd函数。于是使用了官方给出的替代方法,编写用atomicCAS实现的用于计算double型的atomicAdd,问题就出在了这里,运行时,程序会报错,返回错误码719,“unspecified launch failure”,查询官方文档之后,

出错
百般调试都没有解决,最后将double型的数据改成float型,使用官方给的float型的atomicAdd函数,问题得到解决,计算结果正确。

个人感觉应该是耗尽了GPU的资源导致出错吧。因为最开始写的方法是创建801×360×338个线程,也出现了同样的问题。可能自己编写的double型的atomicAdd函数也比较费资源,而自带的float型的atomicAdd函数使用了什么机制,消耗资源相对较少。

如果如果一个block里面分配的register超过了multiprocessor的最大极限时,kernel的launch就会fail

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
### 回答1: 这个错误是CUDA运行错误,表示在执行CUDA内核函数发生了未指定的错误。这可能是由于许多原因引起的,例如内存不足、线程块大小错误、设备故障等。要解决此错误,您可以尝试以下几个步骤: 1. 检查您的CUDA代码是否正确,确保没有语法错误或逻辑错误。 2. 检查您的设备是否正常工作,例如检查设备是否正确连接、驱动程序是否正确安装等。 3. 检查您的内存使用情况,确保您的内存使用不超过设备的限制。 4. 尝试调整线程块大小和网格大小,以确保它们适合您的设备。 5. 如果以上步骤都无法解决问题,请尝试使用CUDA的调试工具来诊断问题。 ### 回答2: "Unspecified launch failure"通常是由于代码或输入错误导致的。以下是可能导致此错误的几个常见原因: 1. 内核参数设置错误-内核参数是在CUDA编程中设置的,它们控制了CUDA在GPU上启动内核的方式。如果参数设置不正确,可以导致"unspecified launch failure"错误。 2. 内存错误-如果代码中内存分配不正确或者访问了未分配的内存,也可能导致此错误。在CUDA编程中,应该仔细检查每个内存分配,以确保分配的大小和类型正确,并且在使用能够访问该内存。 3. 数据类型错误-如果代码中的数据类型不匹配,也可能导致此错误。例如,如果尝试将浮点数数据类型与整数数据类型相加,则会出现不匹配的情况。 4. GPU硬件问题-在极少数情况下,"unspecified launch failure"错误可能由于GPU硬件问题引起。在这种情况下,可能需要检查GPU硬件的状态,并确保其正常工作。 无论是哪种情况,检查代码并调试将是解决问题的关键。可以通过使用CUDA调试器或其他工具以及逐步检查代码来确定问题所在。最好的方法是遵循CUDA编程的最佳实践,并在编写代码始终注意代码的质量和内存安全性。 ### 回答3: 当我们在运行CUDA程序,经常会遇到各种错误。其中,常见的一个错误是“unspecified launch failure”(未指明的启动失败)。这个错误通常发生在GPU的执行器(launching)中,也就是当我们在启动GPU核函数。 这个错误的原因有很多种,下面列出了一些可能的原因和解决方法: 1. 代码目标设备与当前设备不一致<br> 这个错误可能会发生在代码编译,编译器默认使用当前设备。如果代码在其他设备上运行,就会导致此错误。解决方法是:在编译器中使用目标设备的指令,如果您正在使用命令行进行编译,则您可以使用“-arch=sm_XX”来指定目标设备的指令。 2. 数组维度错误<br> 当我们传递数组,数组的尺寸必须要符合GPU核函数的要求,否则会发生“unspecified launch failure”错误。一种解决方法是调试核函数代码,查找问题所在,并修改代码。 3. 核心函数发生死锁<br> 死锁指的是程序因为资源瓶颈被堵死,无法向下运行。当核心函数过于复杂,程序中越多的线程就会被占用,容易发生此错误。解决方案是,尝试减小核心函数,优化程序,减少线程占用。 4. 内存限制<br> “unspecified launch failure”错误可能是因为程序使用了太多的内存空间。您可以尝试关闭其他程序,或通过在代码中调整内存分配来解决这个错误。 总之,当遇到“unspecified launch failure”这个错误,我们应该及分析错误的原因,并尝试排除问题。最好的解决方法就是优化代码,减少程序的资源占用,避免此类错误的发生。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值