mmdetection训练问题汇总（持续更新）

最新推荐文章于 2024-03-17 14:11:44 发布

我不是小宗

最新推荐文章于 2024-03-17 14:11:44 发布

阅读量329

点赞数

分类专栏：模型训练问题及解决方案文章标签： python pytorch

本文链接：https://blog.csdn.net/L__james/article/details/132144474

版权

模型训练问题及解决方案专栏收录该内容

2 篇文章 0 订阅

订阅专栏

文章讲述了如何在mmdetection中进行多卡训练，包括使用defaultGPU或指定特定GPU，以及遇到端口被占用和显存不足时的解决方案。

摘要由CSDN通过智能技术生成

1、关于多卡训练

mmdetection官方提供方式：

./tools/dist_train.sh ${CONFIG_FILE} ${GPU_NUM} [optional arguments]

例如：

./tools/dist_train.sh config/swin/mask_rcnn_swin-t-p4-w7_fpn_1x_coco 4

上述指令代表使用默认的4块GPU参与训练。
如果需要指定特定的几个GPU来训练，可以使用如下的指令：
直接在终端使用：

CUDA_VISIBLE_DEVICES=0,1,2 ./tools/dist_train.sh config/swin/mask_rcnn_swin-t-p4-w7_fpn_1x_coco 3

1.1 端口被占用

上述指令代表使用0,1和2三块GPU来参与模型训练。
在服务器执行多个训练任务时，可能出现进程端口被占用的问题：

RuntimeError: Address already in use

这是由于dist_train.py文件中，端口号已经固定了，手动修改一个即可。如下所示，将29500修改为29502

CONFIG=$1
GPUS=$2
NNODES=${NNODES:-1}
NODE_RANK=${NODE_RANK:-0}
PORT=${PORT:-29502}
MASTER_ADDR=${MASTER_ADDR:-"127.0.0.1"}
PYTHONPATH="$(dirname $0)/..":$PYTHONPATH \
python -m torch.distributed.launch \
    --nnodes=$NNODES \
    --node_rank=$NODE_RANK \
    --master_addr=$MASTER_ADDR \
    --nproc_per_node=$GPUS \
    --master_port=$PORT \
    $(dirname "$0")/train.py \
    $CONFIG \
    --seed 0 \
    --launcher pytorch ${@:3}