如对博客内容有疑问或不同看法,欢迎交流。
QQ:1055311345
验证:CSDN
一、问题描述
前一天还可以正常训练模型,关机后第二天开机,训练时报以下错误:
RuntimeError: cuda runtime error (999) : unknown error at /pytorch/aten/src/THC/THCGeneral.cpp:70
二、挣扎
前一天安装过wine版的微信,又卸载了,其他操作和往常一样,不知道是不是这个的原因。
报错解释:
cuda runtime 是 CUDA 的一个 API,目前有两种不同的 API:Runtime API 和 Driver API。
报错显示是cuda runtime的错误,错误代码是 “999”,然而。。。是未知错误。。。
具体在/pytorch/aten/src/THC/THCGeneral.cpp文件的第70行发生未知错误。
分析(瞎猜):
像这样的错误不能是人家的文件错了,一般是缺少外部的依赖,就是说你没有THCGeneral.cpp文件要的东西,但以前是可以正常运行的,说明可能是那个东西本来是存在的,但这次没有加载,所以重新加载一下就行了。
但那个东西是什么呢?怎么加载呢????放弃挣扎问百度了。。。
三、解决办法
重新加载nvidia内核模块,输入以下命令:
sudo rmmod nvidia_uvm
sudo modprobe nvidia_uvm
参考:https://discuss.pytorch.org/t/cuda-runtime-error-999/69658/12