完整报错如下
在hpc上,当Import dgl时
dgl._ffi.base.DGLError: [17:39:21] /opt/dgl/src/runtime/cuda/cuda_device_api.cc:97: Check failed: e == cudaSuccess || e == cudaErrorCudartUnloading: CUDA: all CUDA-capable devices are busy or unavailable
报错原因
参考 这个
因为指定的device gpu不是0
解决方案
指定device为‘/gpu:0’,将dgl的图g放到device上
g.to('/gpu:0')
或者,在提交作业的脚本内的参数设置里写为
--gpu_device 0