在服务器上安装CUDA10.2的时候遇到了报错,找了很多方法,都没有解决。实验室的服务器没有管理员权限,在自己节点上安装CUDA的过程中遇到了很多非常规问题。
整理记录了一遍安装过程,先给出下载地址https://developer.nvidia.com/cuda-toolkit-archive
以安装cuda-toolkit10.2为例
首先确定自己要安装的版本,不知道自己系统版本的可以用以下命令查看。
uname -m && cat /etc/*release
![](https://img-blog.csdnimg.cn/img_convert/d2471c0643c190b311ef78f17fd374b3.png)
![](https://img-blog.csdnimg.cn/img_convert/94eae75b25daaf3ab5dab86b34f6cd92.png)
我这里使用的是CentOS7,选择runfile,输入下面的命令下载安装
wget https://developer.download.nvidia.com/compute/cuda/10.2/Prod/local_installers/cuda_10.2.89_440.33.01_linux.run
sh cuda_10.2.89_440.33.01_linux.run
等待过程比较长,首先会出现用户协议,accept就好,接下来是安装过程
![](https://img-blog.csdnimg.cn/img_convert/d7ee6511855f84594001435d246a32f8.png)
CUDA驱动(Driver)不需要安装,这里我只安装了CUDA Toolkit,其余的根据自己需要安装。接下来我们需要进入Options,进行一些自定义修改。
![](https://img-blog.csdnimg.cn/img_convert/90689cbbb32c659b74806c7247cd000f.png)
因为我只安装了Toolkit,所以只用修改Toolkit Options以及Library install path (Blank for system default)
首先进入Toolkit Option,然后进入Change Toolkit Install Path,修改到自己的路径
![](https://img-blog.csdnimg.cn/img_convert/87a9064036c8e0ac2f9d4762e092c314.png)
把不需要的选项去掉
![](https://img-blog.csdnimg.cn/img_convert/bde1297e7c6adac35459eb18c8de79ff.png)
然后添加Library install path (Blank for system default),如果没有添加的话会为我们安装到默认路径中,因为没有管理员权限,后面会报错
![](https://img-blog.csdnimg.cn/img_convert/2f5472d8db42a6892777d6a231fa5ec8.png)
报错:
![](https://img-blog.csdnimg.cn/img_convert/7e4e76df3be87d44403557c82714f541.png)
以上过程进行完,然后可以开始安装了。在安装过程还遇到了另外一个问题
报错:
Installation failed. See log at /tmp/cuda-installer.log for details.
cuda_10.2.89_440.33.01_linux.run: line 519: cd: tmp: No such file or directory
可能情况比较特殊,没有找到解决方法,我们之前没有安装驱动,所以应该不是驱动的问题。后来又看了一下,在个人节点的tmp目录下,也没有找到这个cuda-installer文件。我的环境目录中的TMPDIR路径为tmp,所以CUDA应该是把中间文件写到根路径里的tmp下了,但是我们是没有管理员权限的
export TMPDIR=/users12/yszhou/tmp/
重新设置了一下TMPDIR路径,/users12/yszhou/是我的个人节点的根目录
再重新安装,这一次安装成功了
![](https://img-blog.csdnimg.cn/img_convert/66a552e99cf30757952419a407fa537f.png)