Horovod安装,bert多GPU训练(非root用户)
linux环境:
conda虚拟环境部署,cuda版本10.0,GCC == 4.8.5
(gcc与tensorflow_gpu版本依赖,原gcc==4.8.5)如下安装方式可不升级gcc版本,已验证
1. 包依赖情况
conda install(主要依赖包)
- tensorflow_gpu=1.15.0 参考连接:https://tensorflow.google.cn/install/source#gpu
- cuDNN=7.4 (安装过程中发现cdDNN==7.6也可以正常使用)
- pytorch=1.2.0 (此版本与cuda版本依赖) 参考连接:https://pytorch.org/get-started/previous-versions/#linux-and-windows-18
- nccl=2.4 (对应cuda10.0版本)
- **openmpi=4.0.2 (也可以使用mpi4py=3.0相当于openmpi,mpi4py Conda 包,它提供了 OpenMPI 的 CUDA 感知构建,但是测试他有些小问题)
pip install
- horovod==0.19.*
- mxnet-cu100mkl==1.5.* (带 CUDA-10.0支持和mkldnn支持,cu100代表cuda10.1,cu101代表cuda10.1)
2. cuda安装(root用户安装)
-
安装
下载地址:https://developer.nvidia.com/cuda-10.0-download-archive?target_os=Linux&target_arch=x86_64&target_distro=CentOS&target_version=7&target_type=runfilelocal
sh cuda_10.0.130_410.48_linux.run
只选择安装CUDA Toolkit 即可,无需安装驱动
- 普通用户添加环境变量
# su xxxx
# vim ~/.bashrc
export CUDA_HOME=/usr/local/cuda
PATH=/usr/local/cuda/bin:/data/userhome/xx/gcc-7.3/