mmdetection 模型训练技巧

最新推荐文章于 2025-10-25 11:49:45 发布

原创最新推荐文章于 2025-10-25 11:49:45 发布 · 8.5k 阅读

136 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习

目标检测基础专栏收录该内容

6 篇文章

订阅专栏

本文介绍如何通过预训练模型、Soft-NMS、GIoULoss、模型瘦身、在线难例挖掘等技术提升目标检测模型的性能。

部署运行你感兴趣的模型镜像

1. 预训练模型

关于预训练模型，一般的检测都是使用ImageNet预训练的backbone，这是基本配置，官方也支持这种加载方式。

高级一点的的就是针对数据集做一次预训练：即将所有的目标裁剪出来，然后训练一个不错的分类模型，这样的初始化相比ImageNet就要好很多。

最后就是使用coco预训练的完整检测模型权重，这样的效果就是模型收敛速度快，而且效果一般都比较好，也是大家最常用的方法。由于每个任务的类别不同，需要对权重进行微调，这里给出mmdetection修改coco预训练权重类别的脚本。

脚本以cascade rcnn为例，其他模型的修改与之类似。

# for cascade rcnn
import torch
num_classes = 21
model_coco = torch.load("cascade_rcnn_x101_32x4d_fpn_2x_20181218-28f73c4c.pth")

# weight
model_coco["state_dict"]["bbox_head.0.fc_cls.weight"].resize_(num_classes,1024)
model_coco["state_dict"]["bbox_head.1.fc_cls.weight"].resize_(num_classes,1024)
model_coco["state_dict"]["bbox_head.2.fc_cls.weight"].resize_(num_classes,1024)
# bias
model_coco["state_dict"]["bbox_head.0.fc_cls.bias"].resize_(num_classes)
model_coco["state_dict"]["bbox_head.1.fc_cls.bias"].resize_(num_classes)
model_coco["state_dict"]["bbox_head.2.fc_cls.bias"].resize_(num_classes)
#save new model
torch.save(model_coco,"coco_pretrained_weights_classes_%d.pth"%num_classes)

2. Soft-NMS

Soft-NMS改进了之前比较暴力的NMS，当IOU超过某个阈值后，不再直接删除该框，而是降低它的置信度（得分），如果得分低到一个阈值，就会被排除；但是如果降低后任然较高，就会保留。

在mmdetection中的设置如下：

test_cfg = dict(
    rpn=dict(
        nms_across_levels=False,
        nms_pre=1000,
        nms_post=1000,
        max_num=1000,
        nms_thr=0.7,
        min_bbox_size=0),
    rcnn=dict(
        score_thr=0.05, nms=dict(type='soft_nms', iou_thr=0.5), max_per_img=100),
    keep_all_stages=False)

3. GIoULoss

一般情况下，用GIoULoss代替L1Loss后会涨点。

原版用的配置文件（使用L1Loss）如下：

    rpn_head=dict(
        type='RPNHead',
        in_channels=256,
        feat_channels=256,
        anchor_generator=dict(
            type='AnchorGenerator',
            scales=[8],
            ratios=[0.5, 1.0, 2.0],
            strides=[4, 8, 16, 32, 64]),
        bbox_coder=dict(
            type='DeltaXYWHBBoxCoder',
            target_means=[0.0, 0.0, 0.0, 0.0],
            target_stds=[1.0, 1.0, 1.0, 1.0]),
        loss_cls=dict(
            type='CrossEntropyLoss', use_sigmoid=True, loss_weight=1.0),
        loss_bbox=dict(type='L1Loss', loss_weight=1.0)),
    roi_head=dict(
        type='StandardRoIHead',
        bbox_roi_extractor=dict(
            type='SingleRoIExtractor',
            roi_layer=dict(type='RoIAlign', out_size=7, sample_num=0),
            out_channels=256,
            featmap_strides=[4, 8, 16, 32]),
        bbox_head=dict(
            type='Shared2FCBBoxHead',
            in_channels=256,
            fc_out_channels=1024,
            roi_feat_size=7,
            num_classes=10,
            bbox_coder=dict(
                type='DeltaXYWHBBoxCoder',
                target_means=[0.0, 0.0, 0.0, 0.0],
                target_stds=[0.1, 0.1, 0.2, 0.2]),
            reg_class_agnostic=False,
            loss_cls=dict(
                type='CrossEntropyLoss', use_sigmoid=False, loss_weight=1.0),
            loss_bbox=dict(type='L1Loss', loss_weight=1.0))))

添加GIoULoss后的配置文件如下：

    rpn_head=dict(
        type='RPNHead',
        in_channels=256,
        feat_channels=256,
        anchor_generator=dict(
            type='AnchorGenerator',
            scales=[8],
            ratios=[0.5, 1.0, 2.0],
            strides=[4, 8, 16, 32, 64]),
        bbox_coder=dict(
            type='DeltaXYWHBBoxCoder',
            target_means=[0.0, 0.0, 0.0, 0.0],
            target_stds=[1.0, 1.0, 1.0, 1.0]),
        loss_cls=dict(
            type='CrossEntropyLoss', use_sigmoid=True, loss_weight=1.0),
	reg_decoded_bbox=True,      # 使用GIoUI时注意添加
        loss_bbox=dict(type='GIoULoss', loss_weight=5.0)),
    roi_head=dict(
        type='StandardRoIHead',
        bbox_roi_extractor=dict(
            type='SingleRoIExtractor',
            roi_layer=dict(type='RoIAlign', out_size=7, sample_num=0),
            out_channels=256,
            featmap_strides=[4, 8, 16, 32]),
        bbox_head=dict(
            type='Shared2FCBBoxHead',
	    
            in_channels=256,
            fc_out_channels=1024,
            roi_feat_size=7,
            num_classes=10,
            bbox_coder=dict(
                type='DeltaXYWHBBoxCoder',
                target_means=[0.0, 0.0, 0.0, 0.0],
                target_stds=[0.1, 0.1, 0.2, 0.2]),
            reg_class_agnostic=False,
            loss_cls=dict(
                type='CrossEntropyLoss', use_sigmoid=False, loss_weight=1.0),
            reg_decoded_bbox=True,     # 使用GIoUI时注意添加
            loss_bbox=dict(type='GIoULoss', loss_weight=5.0))))

4. 模型瘦身小技巧

mmdetection在保存模型时，除了保存权重，还保存了原始数据和优化参数。但是，模型在测试时，有些参数是没有用的，怎样去掉这些无用的参数使模型减小（大约减小50%）呢？见下面的代码：

import torch

model_path = "epoch_30.pth"
checkpoint = torch.load(model_path)
checkpoint['meta'] = None
checkpoint['optimizer'] = None

weights = checkpoint['state_dict']

state_dict = {"state_dict":weights}

torch.save(state_dict,  './epotch_30_new.pth')

5. 在线难例挖掘（OHEM）

在线难例挖掘：在训练过程中在线的选择困难样本进行训练（选择loss较大的样本）。

思想比较简单，在mmdetection中的应用如下：

以faster rcnn为例子：

_base_ = './faster_rcnn_r50_fpn_1x_coco.py'
train_cfg = dict(rcnn=dict(sampler=dict(type='OHEMSampler')))

第一行为你训练模型的配置文件，第二行把采样方式设置为在线难例挖掘。

todo：

(1). GIoULoss 已经完成

(2). 在线难例挖掘已经完成

(3). 混合精度训练

(4). 可变形卷积

(5). 多尺度训练

(6). 多尺度测试与数据增强测试

(7). Albu数据增强库的使用

(8). 模型融合

(9). 过分割测试

(10). mosaic数据增强

(11). PAFPN

(12). 样本均衡抑制长尾分布问题

您可能感兴趣的与本文相关的镜像

GPT-oss:20b

图文对话

Gpt-oss

GPT OSS 是OpenAI 推出的重量级开放模型，面向强推理、智能体任务以及多样化开发场景

25 条评论

qq_41836192 2022.09.02
博主，可以出swin加可变形卷积的的配置文件么

最最快乐的人 2022.07.18
你好，博主，我有几个问题想咨询一下你： 1、这里面的min_score是什么意思，它和score_thr有关吗（是不是要相等） 2、max_per_img是什么意思呀，万分感谢[code=python]rcnn=dict( score_thr=0.0001, nms=dict(type='soft_nms', iou_thr=0.5, min_score=0.0001), max_per_img=200))# 采用soft_nms后处理 [/code]

wangyaohui8888 2022.01.06
高级一点的的就是针对数据集做一次预训练：即将所有的目标裁剪出来，然后训练一个不错的分类模型，这样的初始化相比ImageNet就要好很多。这个没大理解具体是怎么操作，就是拿自己数据跑个baseline吗
- guopeiAI回复wangyaohui8888 2022.01.06
  对

不打代码也没有头发 2021.07.23
感谢博主，帮助很大！
- guopeiAI回复不打代码也没有头发 2021.07.25
  谢谢，欢迎关注！

万能的小陈 2021.07.19
老哥，你好！我想问一下预训练模型的事情，我看你说的一种做法是针对数据集做一次训练，即把所有目标裁剪出来，训练一个分类模型，使这个模型作为与训练权重。想问一下这个分类模型是用什么网络训练啊，比如检测用faster_rcnn, 那么分类也是用faster_rcnn吗？
- 万能的小陈回复guopeiAI 2021.07.19
  老哥能大概说一下是什么个流程吗，因为目前对这些不太懂[face]emoji:010.png[/face]
- guopeiAI回复万能的小陈 2021.07.19
  提特征的backbone

weixin_40306305 2021.05.07
求更新

风中的小花1 2021.05.07
您好！请问如何实施微调呢？我的实际应用有9类，在自己数据集上训练了faster RCNN模型，现在想在作者提供的训练好的模型上用自己的数据集微调，请问只用改load_from为下载的模型即可吗?
- guopeiAI回复风中的小花1 2021.05.07
  可以

m0_50985374 2021.04.18
博主求更新
- guopeiAI回复m0_50985374 2021.04.19
  谢谢关注，最近有点忙，后续更新。

易老图南 2021.04.04
这篇博客还会继续更新吗，期待
- guopeiAI回复易老图南 2021.04.05
  其实后面的工作我都做过了，后期整理好了就更新，谢谢关注。

闻溪1900 2021.01.21
你好请问，mmdetection中如何保存完整的模型？
- 闻溪1900回复guopeiAI 2021.01.22
  谢谢博主回复，我使用net = init_detector('./configs/atss/atss_r50_fpn_1x_coco.py', './work_dirs/atss_r50_fpn_1x_coco/epoch_1.pth')加载模型。想使用hook提取中间特征，net._modules.get('layer4').register_forward_hook(hook_feature)，程序报错AttributeError: 'NoneType' object has no attribute 'register_forward_hook' 请问该如何修改呢？谢谢
- guopeiAI回复闻溪1900 2021.01.22
  mmdetection中保存的信息很全，你可以用torch去load模型，查看里面的详细信息，里面是以键值对的形式存在。