预备
查看系统版本
cat /etc/redhat-release
得到: CentOS Linux release 7.6.1810 (Core)
一.GPU DRIVER 安装
GPU driver 的版本要高于将要安装的cuda toolkit要求的gpu driver最低版本.并且安装需要管理员权限.集群上已经安装好了gpu driver,版本为450.80.02.
二.cuda toolkit 安装
原本准备使用conda来安装,但是安装后并没有nvcc.根据这里才知道, conda只是安装了一些runtime 函数库,因此选择手动安装.
在nvidia官网上,根据driver的版本安装符合要求的cuda toolkit 最新版本,所有cuda toolkit的历史版本在这里 .最终下载了cuda_11.0.2_450.51.05,并且在本地安装:
安装流程
-
运行.run文件
sh cuda_11.0.2_450.51.05_linux.run
显示错误信息:
Extraction failed. Ensure there is enough space in /tmp and that the installation package is not corrupt Signal caught, cleaning up
应当是tmp空间不足引起的,根据这里找到解决办法.使用
export TMPDIR=/home/quejinlong/tmp
把tmp目录暂时设置在一个空间大的地方.
再次运行.run文件,仍然显示相同错误.那可能是提示中说的第二个错误,使用md5sum检查文件的完整性.md5sum cuda_11.0.2_450.51.05_linux.run
输出为
b9n68b1d1eb6e78e20d1f92430a7f2d1 cuda_11.0.2_450.51.05_linux.run
如下图,在官网下载界面寻找官方提供的校验码,发现不一致.重新下载,运行,成功进入安装界面.
进入安装界面之后,安装toolkit和sample即可,注意,因为是使用非root用户安装,所以在安装过程中要重新设置安装路径为本地目录,重新设置路径的地方有:1)cuda toolkit 2)sample 3)cuda library,具体参考[1]
-
测试安装是否成功
在安装的sample里面,随便选择一个,修改Makefile里面的CUDA_PATH
路径为自己安装cuda的路径.