OSError: (External) Nccl error, unhandled cuda error (at /paddle/paddle/fluid/platform/collective_

在使用Paddle 2.1.3版本和CUDA 10.2运行多GPU训练时遇到OSError,具体为NcclError,提示未处理的CUDA错误。解决方法包括安装特定版本的libnccl2和libnccl-dev,并创建软链接到指定目录,最后更新LD_LIBRARY_PATH。参考解决方案已给出。
摘要由CSDN通过智能技术生成

最近使用Paddle运行多卡程序的时候,出现了下面的错误:

Traceback (most recent call last):
  File "train_pairwise.py", line 238, in <module>
    do_train()
  File "train_pairwise.py", line 116, in do_train
    paddle.distributed.init_parallel_env()
  File "/root/anaconda3/lib/python3.7/site-packages/paddle/distributed/parallel.py", line 196, in init_parallel_env
    parallel_helper._init_parallel_ctx()
  File "/root/anaconda3/lib/python3.7/site-packages/paddle/fluid/dygraph/parallel_helper.py", line 42, in _init_parallel_ctx
    __parallel_ctx__clz__.init()
OSError: (External)  Nccl error, unhandled cuda error  (at /paddle/paddle/fluid/platform/collective_helper.cc:100)

解决方法

我的cuda是10.2的 ,paddle版本是2.1.3


apt-get install libnccl2=2.5.6-1+cuda10.2 libnccl-dev=2.5.6-1+cuda10.2
find / -name "libnccl.so*"
ln -s /usr/lib/x86_64-linux-gnu/libnccl.so.2.5.6 /usr/local/bin/libnccl.so
export LD_LIBRARY_PATH=/usr/local/bin/:$LD_LIBRARY_PATH

参考文献

[1].OSError: (External) Nccl error, unhandled cuda error (at /paddle/paddle/fluid/platform/collective_helper.cc:100). https://issueexplorer.com/issue/PaddlePaddle/PaddleDetection/4139

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

农民小飞侠

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值