起因
- 没有原因不讲道理的忽然就这样了;
- 之前我重装了显卡驱动和cuda,安完之后还是好好的,今天忽然就这样了。
- 截图没有了。完整的报错信息我贴一下:
builtins.RuntimeError: CUDA unknown error - this may be due to an incorrectly set up environment, e.g. changing env variable CUDA_VISIBLE_DEVICES after program start. Setting the available devices to be zero.
- 甭管你是运行啥,只要用用到了cuda,就报这个错。就算只是
print(torch.cuda.is_available())
都会报错。 - 问题是之前还没有这个问题,我看网上有人是新建环境,重装pytorch和cuda,我觉得真不是这个的问题。
- 即然之前可以运行,那说明这二者配合的可以,重装或许会解决问题,比如重装过程中会重新配置啊,或者过程中会安装一下某个包,这个错误就好了。
- 但是经验告诉我,重装必然不是这个问题的最优解。
现有的解决方法
- 网上主流的方法就两种,一、指定显卡编号;二、重启。看一下这篇文章:CUDA unknown error - this may be due to an incorrectly set up environme…
- 基本大家指定显卡都没屌用,八成因为都是只有一张卡吧不清楚;有的人是重启之后就好了,但下次又会同样报错,只能说,很恼火;
- 我是这两种方法都没用。没办法,只能看下外国网友的智慧了
成功解决
- 先是这个,这我没敢试。我看不懂这两条命令是在干嘛,他又没说。
- 只是说,他说的他这样之后就好了,所以当作一种办法放在这里。
- 然后紧挨着这一楼的下一楼,就给出一个更适合我的:
- 这不就安一个
nvidia-modprobe
嘛,出问题了在再卸掉不就完了。可以试试。
sudo apt install nvidia-modprobe
- 然后真就完美解决了!
- 原帖子:stackoverflow。不知道不翻能不能访问,反正的确,Google搜出来的东西确实结果要贴切一些,更容易找到有用的帖子一些。为此我还专门开了梯子,一年nmd108块,c了!