【已解决】RuntimeError: cuda runtime erorr (77): an illegal memory access was encountered at ...

本文记录了博主遇到了下面问题的解决方案,更新于2019.04.04。

问题:

RuntimeError: cuda runtime error (77) : an illegal memory access was encountered at /pytorch/aten/src/THC/generic/THCTensorCopy.c:20

原因:
博主查了很多资料,大家的原因各不相同,最终解决博主问题的是,ground truth中有类别超了。也就是说,比如有40个类别,真值应该是从0到39,而非从1到40。这个解决了也是晚上运行正常,白天就会报错。

博主在修改了真值后,后面又遇到了这个问题。查阅资料后感觉靠谱的方案有下面两种,其中第一种目前来看解决了博主的问题,所以第二种还没有试。

第一种: 在命令前面加上CUDA_LAUNCH_BLOCKING=1(设置os.environ['CUDA_LAUNCH_BLOCKING'] = 1),也就是命令的形式是

CUDA_LAUNCH_BLOCKING=1 python3 train.py 正常的命令设置等

但是博主注意到,加了这个设置以后,训练的速度要比没加的时候慢差不多一倍。比如之前是100s左右,现在是200s。

…… 补充……发现加了这个命令也不行,不知道为什么晚上的训练就不会断,白天的就会……难道是跟随机时候的seed(time)有关系?醉了……

第二种: 有人说遇到了这种情况,就是ground truth label在经过了softmax后有可能超过原始的类别,因此导致了这个问题。所以如果是这样就跟最开始博主找到的原因相似了,都是在计算交叉熵损失的时候超出类别范围而导致这个错误。

评论 11
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值