全报错:dlerror: libcuda rt.so.11.0: cannot open shared object file: No such file or directory; LD_LIBRAR Y_PATH: /usr/local/cuda/lib64::/usr/local/nccl_2.10.3-1+cuda11.0_x86_64/lib
首先要在cuda安装的路径下面查看以下
cd /usr/local/cuda/lib64
查看是否有libcuda rt.so.11.0文件,以下为没有该文件的解决思路
以下仅为我个人遇到的问题的解决办法,提供给与我相同问题的朋友一个解决的思路办法
1、查看nvcc的版本(即cuda toolkit 版本)
nvcc --version
可以看到我的版本是10.0
2、查看nvidia-smi中CUDA版本
nvidia-smi
可以看到我的CUDA版本为11.0与cuda toolkit不一致,所以我要装一个与CUDA版本一致的即报错中没找的那个11.0的版本
解决办法(官网下载路径:https://developer.nvidia.com/cuda-toolkit-archive)
1、选择我要下载的11.0版本
2、选择对应的版本(最后的请选择runfile)
$ wget http://developer.download.nvidia.com/compute/cuda/11.0.2/local_installers/cuda_11.0.2_450.51.05_linux.run
$ sudo sh cuda_11.0.2_450.51.05_linux.run
等一会儿)会进入一个驱动选择界面
3、输入accept,点击回车
4、按回车可以取消选择(有X表面选中)取消driver的选中,其他默认
5、选择Instal按回车
6、成功!