mmdetection训练问题汇总(持续更新)

文章讲述了如何在mmdetection中进行多卡训练,包括使用defaultGPU或指定特定GPU,以及遇到端口被占用和显存不足时的解决方案。
摘要由CSDN通过智能技术生成

1、关于多卡训练

mmdetection官方提供方式:

./tools/dist_train.sh ${CONFIG_FILE} ${GPU_NUM} [optional arguments]

例如:

./tools/dist_train.sh config/swin/mask_rcnn_swin-t-p4-w7_fpn_1x_coco 4

上述指令代表使用默认的4块GPU参与训练。
如果需要指定特定的几个GPU来训练,可以使用如下的指令:
直接在终端使用:

CUDA_VISIBLE_DEVICES=0,1,2 ./tools/dist_train.sh config/swin/mask_rcnn_swin-t-p4-w7_fpn_1x_coco 3

1.1 端口被占用

上述指令代表使用0,1和2三块GPU来参与模型训练。
在服务器执行多个训练任务时,可能出现进程端口被占用的问题:

RuntimeError: Address already in use

这是由于dist_train.py文件中,端口号已经固定了,手动修改一个即可。如下所示,将29500修改为29502

CONFIG=$1
GPUS=$2
NNODES=${NNODES:-1}
NODE_RANK=${NODE_RANK:-0}
PORT=${PORT:-29502}
MASTER_ADDR=${MASTER_ADDR:-"127.0.0.1"}
PYTHONPATH="$(dirname $0)/..":$PYTHONPATH \
python -m torch.distributed.launch \
    --nnodes=$NNODES \
    --node_rank=$NODE_RANK \
    --master_addr=$MASTER_ADDR \
    --nproc_per_node=$GPUS \
    --master_port=$PORT \
    $(dirname "$0")/train.py \
    $CONFIG \
    --seed 0 \
    --launcher pytorch ${@:3}

1.2 显存被占用

当执行训练程序出现报错的问题之后,可能指定的GPU的显存已经被占用了绝大部分,当再执行时,肯定提示显存不够。这时候应该将后台执行的相关程序(进程)杀死掉。
查看执行的所有进程可以用2条命令来实现:

1)ps aux;
2)ps -ef | grep python

通过kill -9 待杀死的进程ID,来停止对应进程。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
要继续训练mmdetection模型,你需要按照以下步骤进行操作: 1. 打开mmdetection训练配置文件yolox_s_8x8_300e_coco.py,该文件位于mmdetection/work_dirs/yolox_s_8x8_300e_coco/目录下。 2. 确认配置文件中的训练参数是否符合你的需求,比如学习率、迭代次数等。 3. 如果你需要恢复之前的训练进度,可以查找之前训练过程中生成的终端log文件20220705_155440.log,以及对应的json版本文件20220705_155440.log.json。这些文件可以用于可视化训练过程参数的使用。 4. 根据你的需求,进行异常处理。例如,如果遇到错误或异常情况,可以查看mmdetection/configs/base/default_runtime.py文件并取消相关注释,以进行异常处理。 5. 最后,你可以继续使用mmdetection进行训练,通过运行相应的训练命令来开始训练过程。 需要注意的是,mmdetection是一个基于PyTorch实现的深度学习目标检测工具箱,支持多种主流目标检测框架,如Faster-RCNN、Mask-RCNN、Fast-RCNN等。你可以根据自己的需求选择合适的目标检测框架进行训练。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [mmdetection从配置到训练](https://blog.csdn.net/qq_52302919/article/details/127619266)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值