【已解决】RuntimeError: cuda runtime erorr (77): an illegal memory access was encountered at ...

最新推荐文章于 2024-07-29 10:08:37 发布

ShuqiaoS

最新推荐文章于 2024-07-29 10:08:37 发布

阅读量3.7w

点赞数 7

分类专栏： Python基础论文代码学习图像分割文章标签： pytorch

本文链接：https://blog.csdn.net/shuqiaos/article/details/88978986

版权

29 篇文章 2 订阅

订阅专栏

26 篇文章 7 订阅

订阅专栏

25 篇文章 4 订阅

订阅专栏

本文记录了博主遇到了下面问题的解决方案，更新于2019.04.04。

问题：

RuntimeError: cuda runtime error (77) : an illegal memory access was encountered at /pytorch/aten/src/THC/generic/THCTensorCopy.c:20

原因：
博主查了很多资料，大家的原因各不相同，最终解决博主问题的是，ground truth中有类别超了。也就是说，比如有40个类别，真值应该是从0到39，而非从1到40。这个解决了也是晚上运行正常，白天就会报错。

博主在修改了真值后，后面又遇到了这个问题。查阅资料后感觉靠谱的方案有下面两种，其中第一种目前来看解决了博主的问题，所以第二种还没有试。

第一种： 在命令前面加上CUDA_LAUNCH_BLOCKING=1（设置os.environ['CUDA_LAUNCH_BLOCKING'] = 1），也就是命令的形式是

CUDA_LAUNCH_BLOCKING=1 python3 train.py 正常的命令设置等

但是博主注意到，加了这个设置以后，训练的速度要比没加的时候慢差不多一倍。比如之前是100s左右，现在是200s。

…… 补充……发现加了这个命令也不行，不知道为什么晚上的训练就不会断，白天的就会……难道是跟随机时候的seed(time)有关系？醉了……

第二种： 有人说遇到了这种情况，就是ground truth label在经过了softmax后有可能超过原始的类别，因此导致了这个问题。所以如果是这样就跟最开始博主找到的原因相似了，都是在计算交叉熵损失的时候超出类别范围而导致这个错误。

关注

专栏目录