MMDetection目标检测框架训练指南-CSDN博客

本文链接：https://blog.csdn.net/gitblog_00612/article/details/148359924

MMDetection目标检测框架训练指南

mmdetection open-mmlab/mmdetection: 是一个基于 PyTorch 的人工智能物体检测库，支持多种物体检测算法和工具。该项目提供了一个简单易用的人工智能物体检测库，可以方便地实现物体的检测和识别，同时支持多种物体检测算法和工具。项目地址: https://gitcode.com/gh_mirrors/mm/mmdetection

概述

MMDetection是一个功能强大的目标检测框架，支持多种检测算法和模型。本文将详细介绍如何使用MMDetection框架在标准数据集和自定义数据集上进行模型训练，涵盖从数据准备到模型训练、测试的全流程。

标准数据集训练

数据准备

在开始训练前，需要准备好符合要求的数据集。对于标准数据集如COCO，需要确保数据集的目录结构正确，并包含必要的标注文件。

注意事项：

部分预训练模型（如Cityscapes配置文件）使用COCO预训练权重进行初始化
如果网络连接不稳定，建议提前下载好预训练模型

学习率自动缩放机制

MMDetection提供了智能的学习率自动缩放功能，能够根据实际训练时的批量大小自动调整学习率。

核心原理：

基于线性扩展规则（Linear Scaling Rule）
参考批次大小为16（8GPU×2图像/GPU）
实际学习率 = 基础学习率 × (实际批量大小 / 参考批量大小)

使用方法：

python tools/train.py configs/xxx.py --auto-scale-lr

重要提示：

确保配置文件中auto_scale_lr.base_batch_size设置正确
不同配置文件的默认批量大小可能不同（通过_NxM_标识）

单GPU训练

基本命令格式：

python tools/train.py config_file [可选参数]

关键参数：

--work-dir: 指定工作目录
--resume: 从最新检查点恢复训练
--resume checkpoint_file: 从指定检查点恢复
--cfg-options: 覆盖配置文件设置

训练验证频率：可在配置文件中通过train_cfg设置验证间隔：

train_cfg = dict(val_interval=12)  # 每12个epoch验证一次

CPU训练

虽然不推荐，但MMDetection支持纯CPU训练：

export CUDA_VISIBLE_DEVICES=-1
python tools/train.py config_file

多GPU训练

使用分布式训练脚本：

bash tools/dist_train.sh config_file gpu_num [可选参数]

多任务管理：当单机运行多个训练任务时，需要指定不同端口避免冲突：

CUDA_VISIBLE_DEVICES=0,1,2,3 PORT=29500 ./tools/dist_train.sh config 4
CUDA_VISIBLE_DEVICES=4,5,6,7 PORT=29501 ./tools/dist_train.sh config 4

多机训练

在多机环境下训练：第一台机器：

NNODES=2 NODE_RANK=0 PORT=MASTER_PORT MASTER_ADDR=MASTER_ADDR sh tools/dist_train.sh config gpus

第二台机器：

NNODES=2 NODE_RANK=1 PORT=MASTER_PORT MASTER_ADDR=MASTER_ADDR sh tools/dist_train.sh config gpus

Slurm集群训练

在Slurm管理的集群上：

GPUS=16 ./tools/slurm_train.sh partition job_name config work_dir

端口设置方法：

通过--cfg-options动态设置（推荐）：

--cfg-options 'dist_params.port=29500'

直接修改配置文件：

dist_params = dict(backend='nccl', port=29500)

自定义数据集训练

数据格式转换

MMDetection支持三种自定义数据集方式：

转换为COCO格式（推荐）
转换为中间格式
实现全新数据集类

COCO格式关键字段：

{
    "images": [{"id", "width", "height", "file_name"}],
    "annotations": [{"id", "image_id", "category_id", "segmentation", "area", "bbox", "iscrowd"}],
    "categories": [{"id", "name", "supercategory"}]
}

配置文件准备

自定义训练需要创建新的配置文件，通常基于现有配置修改：

修改模型head中的类别数
更新数据集路径和元信息
调整数据加载器设置
配置评估指标

示例配置：

_base_ = '../mask_rcnn/base_config.py'

model = dict(
    roi_head=dict(
        bbox_head=dict(num_classes=1), 
        mask_head=dict(num_classes=1)))

data_root = 'data/custom/'
metainfo = {
    'classes': ('object',),
    'palette': [(220, 20, 60)]
}

train_dataloader = dict(
    dataset=dict(
        data_root=data_root,
        metainfo=metainfo,
        ann_file='train/annotations.json',
        data_prefix=dict(img='train/')))

训练自定义模型

启动训练命令：

python tools/train.py configs/custom/config_file.py

测试与推理

模型测试命令：

python tools/test.py configs/custom/config_file.py work_dir/epoch_x.pth

最佳实践建议

数据准备：确保标注质量，特别是边界框和分割掩码的准确性
学习率设置：对于小批量训练，适当降低基础学习率
训练监控：定期检查训练日志和验证结果
模型选择：根据任务需求选择合适的模型架构
资源利用：合理配置GPU数量与批量大小的平衡

通过本文介绍的方法，用户可以充分利用MMDetection框架的强大功能，在各种场景下高效训练目标检测模型。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考