实验室有个几年前的服务器,装了GTX 1080Ti显卡。之前我装了NVIDIA最新的470版本驱动,通过 nvidia-smi
命令也可以看到显卡工作情况,因此我以为搞定了。
然而今天打算跑个程序的时候,突然发现Torch报错了:
torch._C._cuda_init()
RuntimeError: CUDA error: unknown error
试了网上的一些方法,也没有用。
而且发现,最简单的:torch.tensor(1).cuda()
也会报这个错。
于是打算重新安装驱动。
从NVIDIA官网下载了最新版的470.63.01驱动再安装,却出错了。到/var/log/nvidia-installer
里面看,出错的原因在
executing: ‘/bin/sh ./libglvnd_install_checker/check-libglvnd-install.sh’…
Core dumped
在网上搜了半天,都没找到合适的解决方案。
收到某个帖子启发(忘记哪一篇了),首先使用
./NVIDIA-Linux-x86_64-470.63.01.run -x (通过 --help 可以查看可以使用的参数)
将安装包进行解压,然后找到脚本/libglvnd_install_checker/check-libglvnd-install.sh
,运行之:
sh -x check-libglvnd-install.sh (这里的-