本文基于paddleDetection,分布式训练模型
1.单卡训练与多卡训练,命令区别
单卡训练
python tools/train.py -c configs/ppyoloe/ppyoloe_plus_crn_m_80e_coco.yml --eval
多卡训练
python -m paddle.distributed.launch --gpus 0,1,2 tools/train.py -c configs/ppyoloe/ppyoloe_plus_crn_m_80e_coco.yml --eval
2.环境安装
paddle使用GPU训练模型,需要安装显卡驱动、cuda、cudnn
基于以上环境,需要安装nccl
sudo dpkg -i nccl-local-repo-ubuntu2004-2.8.4-cuda11.2_1.0-1_amd64.deb
sudo apt-get install libnccl2
sudo apt-get install libnccl-dev
3.配置环境变量
export LD_LIBRARY_PATH="/usr/local/cuda-11.2/lib64"
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/lib/x86_64-linux-gnu
4.刷新环境变量
source ~/.bashrc