PaddleOCR多卡运行时报错 NCCL error

(背景环境:linux+anaconda,CUDA Version: 12.0,无root权限,虚拟环境命名为paddle_env,glibc版本为2.31)

问题描述:单机多卡训练模型的时候报错:

OSError: (External) Failed, NCCL error ../paddle/fluid/distributed/collective/process_group_nccl.cc:722
'unhandled cuda error (run with NCCL_DEBUG=INF0 for details)'
(at ../paddle/fluid/distributed/collective/process_aroup_nccl.cc:722

解决方法:

1、从github上将NCCL的仓库拉到本地:

git clone https://github.com/NVIDIA/nccl.git

2、进入nccl文件夹

cd /home/liming/work/PaddleOCR-main/nccl

3、创建software文件夹,执行下面的命令将nccl安装在software文件夹下。

make -j src.build BUILDDIR=/home/liming/work/software/nccl CUDA_HOME=/usr/local/cuda-12.0/

如图: 

4、添加环境变量

vim ~/.bashrc

键入"i"进行修改,添加以下内容:

export PATH="/data/limin/anaconda3/bin:$PATH"
export LD_LIBRARY_PATH="/home/liming/work/software/nccl/lib:$LD_LIBRARY_PATH"
export PATH="/home/liming/work/software/nccl/include:$PATH"

点击esc按键,输入“:wq”保存。再输入:

source ~/.bashrc

5、运行下方代码即可实现PaddleOCR单机多卡训练 :

python -m paddle.distributed.launch --gpus '0,1,2,3,4,5,6,7' /PaddleOCR-main/tools/train.py -c /PaddleOCR-main/configs/rec/SVTRv2/rec_repsvtr_gtc.yml

参考:

组网、训练、评估常见问题-使用文档-PaddlePaddle深度学习平台

https://juejin.cn/post/7123471920565059591

https://www.cnblogs.com/chenzhen0530/p/13885258.html

NCCL无root权限编译安装_非root用户安装nccl-CSDN博客

dlopen: cannot load any more object with static TLS问题解决-CSDN博客

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值