pytorch报错RuntimeError: cuda runtime error (59) : device-side assert triggered at的奇怪解决方案

最新推荐文章于 2024-05-13 10:42:06 发布

Knimet

最新推荐文章于 2024-05-13 10:42:06 发布

阅读量1.1k

点赞数

分类专栏： pytorch 文章标签： pytorch

本文链接：https://blog.csdn.net/RuoYeKnight/article/details/105040165

版权

pytorch 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

模型中添加了这样的函数

def func1(self,seq1,seq2):
    
    out = []
    //...往out里面加内容
    return torch.stack(out,0)

运行报错RuntimeError: cuda runtime error (59) : device-side assert triggered at，位置在return之前一个看不出异常的地方，而且打印报错位置的变量，同样报错。

虽然不是第一次遇到这个报错，但这次花了我6个小时解决问题，记录一下过程。

【一】常用方案不灵光

前人的经验，把所有的运算放到cpu上，.cuda()直接打上注释跑，可以找到问题所在。但是这次无效，放到cpu上前向计算一切正常。

【二】查看变量，包括shape，索引号能不能对上

没用，cpu前向计算都通过了，这还能对不上？

【三】单元测试，一行一行地注释，把注释掉的内容写到forward中，并且在前向计算的过程中不使用，保证过程是通顺的。

直到代码修改为：

def func1(self,seq1,seq2):
    
    out = []
    //...往out里面加内容
    return out
def forward(self,...):
    out = self.func1(seq1,seq2)
    out = torch.stack(out,0)
    return pred,loss

才最终顺利运行！其他的一点没改。按这份代码跑，模型顺利跑通，一份新的state-of-the-art要出来了哈哈哈。。。。。。。

总结：第一种方案还是好用的，先用第一种，再用第三种。

好憋屈啊，虽然解决了问题，但是并不知道为什么会这样。。是不是应该去github上提一嘴。。但是在本地环境自己写测试用例无法复现这个报错，问题终究应该出自数据上

Knimet

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
pytorch报错RuntimeError: cuda runtime error (59) : device-side assert triggered at的奇怪解决方案

模型中添加了这样的函数def func1(self,seq1,seq2): out = [] //...往out里面加内容 return torch.stack(out,0) 运行报错RuntimeError: cuda runtime error (59) : device-side assert triggered at，位置在return之...
复制链接

扫一扫