问题汇总与解决步骤:
- 安装cuda11.0到自己目录下,修改环境变量,具体参考https://zhuanlan.zhihu.com/p/95939378
- 安装cudnn8.1.0到cuda11.0中,参考官方文档 https://docs.nvidia.com/deeplearning/cudnn/install-guide/index.html
-
libcublas.so找不到,解决方法 在 .bashrc 中加入 export LD_LIBRARY_PATH='/usr/local/cuda-10.0/lib64/'(应该是安装cuda11.0时环境变量没有写好)
-
安装nccl多卡训练,下载txz压缩包,https://developer.nvidia.com/nccl/nccl-download 。解压缩 tar xvf nccl-<version>.txz
类似于安装cudnn将.h与.so文件复制到cuda目录下, .bashrc文件中添加nccl lib 的路径(可能直接添加路径即可,不用复制文件)。