Horovod安装,bert多GPU训练(非root用户)

Horovod安装,bert多GPU训练(非root用户)

linux环境:
conda虚拟环境部署,cuda版本10.0,GCC == 4.8.5

(gcc与tensorflow_gpu版本依赖,原gcc==4.8.5)如下安装方式可不升级gcc版本,已验证

1. 包依赖情况
conda install(主要依赖包)
  • tensorflow_gpu=1.15.0 参考连接:https://tensorflow.google.cn/install/source#gpu
  • cuDNN=7.4 (安装过程中发现cdDNN==7.6也可以正常使用)
  • pytorch=1.2.0 (此版本与cuda版本依赖) 参考连接:https://pytorch.org/get-started/previous-versions/#linux-and-windows-18
  • nccl=2.4 (对应cuda10.0版本)
  • **openmpi=4.0.2 (也可以使用mpi4py=3.0相当于openmpi,mpi4py Conda 包,它提供了 OpenMPI 的 CUDA 感知构建,但是测试他有些小问题)
pip install
  • horovod==0.19.*
  • mxnet-cu100mkl==1.5.* (带 CUDA-10.0支持和mkldnn支持,cu100代表cuda10.1,cu101代表cuda10.1)
2. cuda安装(root用户安装)
  • 安装

    下载地址:https://developer.nvidia.com/cuda-10.0-download-archive?target_os=Linux&target_arch=x86_64&target_distro=CentOS&target_version=7&target_type=runfilelocal

在这里插入图片描述

sh cuda_10.0.130_410.48_linux.run

只选择安装CUDA Toolkit 即可,无需安装驱动

  • 普通用户添加环境变量
# su xxxx
# vim ~/.bashrc
export CUDA_HOME=/usr/local/cuda
PATH=/usr/local/cuda/bin:/data/userhome/xx/gcc-7.3/gcc/bin:/data/userhome
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值