mmdetection源码阅读笔记（3）--Train and Test

最新推荐文章于 2022-12-10 22:46:19 发布

EwanRenton

最新推荐文章于 2022-12-10 22:46:19 发布

阅读量4.8k

点赞数 4

本文链接：https://blog.csdn.net/sinat_29963957/article/details/94232243

版权

前面把模型网络以及Loss 部分都写了，这篇就主要把之前的部分都串起来，看下mmdetection的训练PipeLine是怎样的。

Train

mmdetection具体发起训练使用了mmcv中的Runner，这就不赘述了，我们直接看mmdet/models/detectors/cascade_rcnn.py中的forward_train(),还是分成3个部分来看

rpn


    def forward_train(self,
                      img,
                      img_meta,
                      gt_bboxes,
                      gt_labels,
                      gt_bboxes_ignore=None,
                      gt_masks=None,
                      proposals=None):
        x = self.extract_feat(img)

        losses = dict()

        if self.with_rpn:
            rpn_outs = self.rpn_head(x)
            rpn_loss_inputs = rpn_outs + (gt_bboxes, img_meta,
                                          self.train_cfg.rpn)
            rpn_losses = self.rpn_head.loss(
                *rpn_loss_inputs, gt_bboxes_ignore=gt_bboxes_ignore)
            losses.update(rpn_losses)

            proposal_cfg = self.train_cfg.get('rpn_proposal',
                                              self.test_cfg.rpn)
            proposal_inputs = rpn_outs + (img_meta, proposal_cfg)
            proposal_list = self.rpn_head.get_bboxes(*proposal_inputs)
        else:
            proposal_list = proposals

在这里可以看到，首先对输入图像提取特征，然后将特征送到rpn_head,之后计算rpn_loss然后通过get_bboxes()取到proposal_list。
这里的大部分内容在前面的blog中都有写，这次主要就看get_bboxes()这个函数。
在之前loss部分我们有提到rpn_head的输出并不是每个anchor的分类和回归结果，然后在loss()中通过assign和sampler计算得到了target。
而RPN的作用是用来提取候选框，而候选框就是通过get_bboxes()得到的。
这里我们就来一步一步看看get_bbox都干了些什么
首先get_bboxes定义在mmdet/models/anchor_heads/anchor_head.py

    def get_bboxes(self, cls_scores, bbox_preds, img_metas, cfg,
                   rescale=False):
        assert len(cls_scores) == len(bbox_preds)
        num_levels = len(cls_scores)

        mlvl_anchors = [
            self.anchor_generators[i].grid_anchors(cls_scores[i].size()[-2:],
                                                   self.anchor_strides[i])
            for i in range(num_levels)
        ]
        result_list = []
        for img_id in range(len(img_metas)):
            cls_score_list = [
                cls_scores[i][img_id].detach() for i in range(num_levels)
            ]
            bbox_pred_list = [
                bbox_preds[i][img_id].detach() for i in range(num_levels)
            ]
            img_shape = img_metas[img_id]['img_shape']
            scale_factor = img_metas[img_id]['scale_factor']
            proposals = self.get_bboxes_single(cls_score_list, bbox_pred_list,
                                               mlvl_anchors, img_shape,
                                               scale_factor, cfg, rescale)
            result_list.append(proposals)
        return result_list

    def get_bboxes_single(self,
                          cls_scores,
                          bbox_preds,
                          mlvl_anchors,
                          img_shape,
                          scale_factor,
                          cfg,
                          rescale=False):
        assert len(cls_scores) == len(bbox_preds) == len(mlvl_anchors)
        mlvl_bboxes = []
        mlvl_scores = []
        for cls_score, bbox_pred, anchors in zip(cls_scores, bbox_preds,
                                                 mlvl_anchors):
            assert cls_score.size()[-2:] == bbox_pred.size()[-2:]
            cls_score = cls_score.permute(1, 2,
                                          0).reshape(-1, self.cls_out_channels)
            if self.use_sigmoid_cls:
                scores = cls_score.sigmoid()
            else:
                scores = cls_score.softmax(-1)
            bbox_pred = bbox_pred.permute(1, 2, 0).reshape(-1, 4)
            nms_pre = cfg.get('nms_pre', -1)
            if nms_pre > 0 and scores.shape[0] > nms_pre:
                if self.use_sigmoid_cls:
                    max_scores, _ = scores.max(dim=1)
                else:
                    max_scores, _ = scores[:, 1:].max(dim=1)
                _, topk_inds = max_scores.topk(nms_pre)
                anchors = anchors[topk_inds, :]
                bbox_pred = bbox_pred[topk_inds, :]
                scores = scores[topk_inds, :]
            bboxes = delta2bbox(anchors, bbox_pred, s

最低0.47元/天解锁文章

EwanRenton

关注

4
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
mmdetection源码阅读笔记（3）--Train and Test

前面把模型网络以及Loss 部分都写了，这篇就主要把之前的部分都串起来，看下mmdetection的训练PipeLine是怎样的。Trainmmdetection具体发起训练使用了mmcv中的Runner，这就不赘述了，我们直接看mmdet/models/detectors/cascade_rcnn.py中的forward_train(),还是分...
复制链接

扫一扫