服务器linux环境下horovod安装和报错信息处理(RuntimeEror:Failed to detenmine if Gloo support has been built.)

4 篇文章 0 订阅
4 篇文章 0 订阅

horovod的Github路径:horovod/horovod: Distributed training framework for TensorFlow, Keras, PyTorch, and Apache MXNet. (github.com)https://github.com/horovod/horovod#install

 针对之前配置的pytorch==1.5.1和cuda==10.2,配置horovod。在使用horovod进行分布式训练时,会报出下面这个错误

之前的配置顺序(不要按照这里的操作):

1、先安装openmpi:

sudo apt-get install -y openmpi-bin

2、根据下面的顺序逐步安装Horovod

pip install mpi4py

HOROVOD_GPU_OPERATIONS=NCCL pip install horovod==0.19.4

pip install horovod

错误信息: 

 产生上面报错原因是因为,重新针对RTX3090的服务器配置了cuda,导致之前配置的Horovod版本和cuda不匹配,需要重新配置。

解决方法(按照这里的操作):

1、卸载之前安装的Horovod(因为,如果直接安装高版本的horovod还是会显示上面的错误,需要将之前版本卸载,再重新安装)

pip uninstall horovod

 2、安装Horovod:使用以下命令安装Horovod

pip install horovod

3、安装Gloo支持的依赖项(重点!!!):Gloo需要libuv库的支持。需要确保libuv已经安装在系统中。

对于Ubuntu系统,可以使用以下命令安装libuv:

sudo apt-get update
sudo apt-get install libuv1-dev

4、重新构建Horovod:如果之前已经安装了Horovod但未启用Gloo支持,可以尝试重新构建Horovod,确保Gloo支持已经启用。在重新构建Horovod时,请确保已经安装了Gloo所需的依赖项。

HOROVOD_WITH_GLOO=1 pip install --no-cache-dir horovod

通过将HOROVOD_WITH_GLOO=1设置为环境变量,可以确保Gloo支持已经启用,并重新安装Horovod。

5、验证Gloo支持:可以使用以下代码片段在Python中验证Gloo支持是否已成功构建:

import horovod.torch as hvd

hvd.init()
print(f"Horovod initialized with rank {hvd.rank()}")

运行这段代码,如果成功输出当前进程的排名(rank),则表示Horovod和Gloo支持已经成功构建。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值