本文记录了博主遇到了下面问题的解决方案,更新于2019.04.04。
问题:
RuntimeError: cuda runtime error (77) : an illegal memory access was encountered at /pytorch/aten/src/THC/generic/THCTensorCopy.c:20
原因:
博主查了很多资料,大家的原因各不相同,最终解决博主问题的是,ground truth中有类别超了。也就是说,比如有40个类别,真值应该是从0到39,而非从1到40。这个解决了也是晚上运行正常,白天就会报错。
博主在修改了真值后,后面又遇到了这个问题。查阅资料后感觉靠谱的方案有下面两种,其中第一种目前来看解决了博主的问题,所以第二种还没有试。
第一种: 在命令前面加上CUDA_LAUNCH_BLOCKING=1
(设置os.environ['CUDA_LAUNCH_BLOCKING'] = 1
),也就是命令的形式是
CUDA_LAUNCH_BLOCKING=1 python3 train.py 正常的命令设置等
但是博主注意到,加了这个设置以后,训练的速度要比没加的时候慢差不多一倍。比如之前是100s左右,现在是200s。
…… 补充……发现加了这个命令也不行,不知道为什么晚上的训练就不会断,白天的就会……难道是跟随机时候的seed(time)
有关系?醉了……
第二种: 有人说遇到了这种情况,就是ground truth label在经过了softmax后有可能超过原始的类别,因此导致了这个问题。所以如果是这样就跟最开始博主找到的原因相似了,都是在计算交叉熵损失的时候超出类别范围而导致这个错误。