（二十一）mmdetection源码解读：faster_rcnn_r50_fpn.py详解rpn_head

mm_exploration

已于 2023-09-18 14:59:14 修改

阅读量1.5k

点赞数

分类专栏： mmdtection 文章标签： RPN头 AnchorGenerator bbox编码 CrossEntropyLoss L1Loss

于 2022-07-08 16:10:31 首次发布

本文链接：https://blog.csdn.net/m0_37737957/article/details/125654172

版权

mmdtection 专栏收录该内容

28 篇文章 33 订阅

订阅专栏

一、model配置文件->rpn_head

model = dict(
   rpn_head=dict(
        type='RPNHead',                        # RPN网络类型
        in_channels=256,                       # RPN网络的输入通道数
        feat_channels=256,                   # 特征层的通道数
        anchor_generator=dict(			# 锚点(Anchor)生成器的配置
            type='AnchorGenerator',		# 大多数方法使用 AnchorGenerator 作为锚点生成器,
            # scales=[8],
            scales=[4，8],  # 锚点的基本比例，特征图某一位置的锚点面积为 scale * base_sizes
            ratios=[0.5, 1.0, 2.0],  # 高度和宽度之间的比率
            strides=[4, 8, 16, 32, 64]),  # 锚生成器的步幅。这与 FPN 特征步幅一致。 如果未设置 base_sizes，则当前步幅值将被视为 base_sizes
        bbox_coder=dict(						 # 在训练和测试期间对框进行编码和解码
            type='DeltaXYWHBBoxCoder',# 框编码器的类别，'DeltaXYWHBBoxCoder' 是最常用的
            target_means=[.0, .0, .0, .0],	# 用于编码和解码框的目标均值
            target_stds=[1.0, 1.0, 1.0, 1.0]), # 用于编码和解码框的标准差
        loss_cls=dict(
            type='CrossEntropyLoss', use_sigmoid=True, loss_weight=1.0),
        loss_bbox=dict(type='L1Loss', loss_weight=1.0)),
        )

二、rpn_head详解

1、anchor_generator->AnchorGenerator

按照下面的配置文件到底会生成怎样的anchor?

 anchor_generator=dict(			# 锚点(Anchor)生成器的配置
            type='AnchorGenerator',		# 大多数方法使用 AnchorGenerator 作为锚点生成器,
            scales=[8] # 锚点的基本比例，特征图某一位置的锚点面积为 scale * base_sizes
            ratios=[0.5, 1.0, 2.0],  # 高度和宽度之间的比率
            strides=[4, 8, 16, 32, 64]),  # 锚生成器的步幅。这与 FPN 特征步幅一致。 如果未设置 base_sizes，则当前步幅值将被视为 base_sizes

一共是五级特征图，每一级特征图对应生成3个尺寸anchor，一共生成15个尺寸的anchor
P2:([45.2,22.6],[32,32],[22.6,45.2])
P3:([90.5,45.2],[64,64],[45.2,90.5])
P4:([181,90.5],[128,128],[90.5,181])
P5([362,181],[256,256],[181,362])
P6:([724,362],[512,512],[362,724])
AnchorGenerator类借助gen_base_anchors方法产生了基础的15个anchor，这些anchor是原图上的anchor。

class AnchorGenerator:
   def gen_base_anchors(self):
        """Generate base anchors.

        Returns:
            list(torch.Tensor): Base anchors of a feature grid in multiple \
                feature levels.
        """
        multi_level_base_anchors = []
        for i, base_size in enumerate(self.base_sizes):
            center = None
            if self.centers is not None:
                center = self.centers[i]
            multi_level_base_anchors.append(
                self.gen_single_level_base_anchors(
                    base_size,
                    scales=self.scales,
                    ratios=self.ratios,
                    center=center))
        return multi_level_base_anchors

[tensor([[-22.6274, -11.3137, 22.6274, 11.3137],
[-16.0000, -16.0000, 16.0000, 16.0000],
[-11.3137, -22.6274, 11.3137, 22.6274]]),
tensor([[-45.2548, -22.6274, 45.2548, 22.6274],
[-32.0000, -32.0000, 32.0000, 32.0000],
[-22.6274, -45.2548, 22.6274, 45.2548]]),
tensor([[-90.5097, -45.2548, 90.5097, 45.2548],
[-64.0000, -64.0000, 64.0000, 64.0000],
[-45.2548, -90.5097, 45.2548, 90.5097]]),
tensor([[-181.0193, -90.5097, 181.0193, 90.5097],
[-128.0000, -128.0000, 128.0000, 128.0000],
[ -90.5097, -181.0193, 90.5097, 181.0193]]),
tensor([[-362.0387, -181.0193, 362.0387, 181.0193],
[-256.0000, -256.0000, 256.0000, 256.0000],
[-181.0193, -362.0387, 181.0193, 362.0387]])]

设置完anchor的（h，w）后，中心点坐标都为（0,0）。所以我们还需要设置anchor的中心点坐标（x，y）。因为FPN的存在，要为不同的feature_map的anchor设置不同的中心点。通过下面函数来完成。

 def grid_anchors(self, featmap_sizes, device='cuda'):
  
        warnings.warn('``grid_anchors`` would be deprecated soon. '
                      'Please use ``grid_priors`` ')

        assert self.num_levels == len(featmap_sizes)
        multi_level_anchors = []
        for i in range(self.num_levels):
            anchors = self.single_level_grid_anchors(
                self.base_anchors[i].to(device),
                featmap_sizes[i],
                self.strides[i],
                device=device)
            multi_level_anchors.append(anchors)
        return multi_level_anchors

2、bbox_coder->DeltaXYWHBBoxCoder

下面的配置文件会对矩形框进行怎样的编码解码？

        bbox_coder=dict(						 # 在训练和测试期间对框进行编码和解码
            type='DeltaXYWHBBoxCoder',# 框编码器的类别，'DeltaXYWHBBoxCoder' 是最常用的
            target_means=[.0, .0, .0, .0],	# 用于编码和解码框的目标均值
            target_stds=[1.0, 1.0, 1.0, 1.0]), # 用于编码和解码框的标准差

代码位置：/mmdetection/mmdet/core/bbox/coder/delta_xywh_bbox_coder.py
在目标检测算法中，为了利于网络的收敛，实际回归的是anchor和gt_bboxes之间的偏差。因此在训练过程中，需要计算gt_bboxes和anchor之间的偏差值。计算方式如下： [x,y,w,h] 表示gt_bboxes的中心，宽和高；[xa,ya,wa,ha] 表示anchor的中心，宽和高。[tx ，ty ，tw，th]表示二者之间的偏差。

在这里插入图片描述

下面编码函数实际调用的是bbox2delta

    def encode(self, bboxes, gt_bboxes):
        assert bboxes.size(0) == gt_bboxes.size(0)
        assert bboxes.size(-1) == gt_bboxes.size(-1) == 4
        encoded_bboxes = bbox2delta(bboxes, gt_bboxes, self.means, self.stds)
        return encoded_bboxes

函数bbox2delta就是按照上图中的公式进行编码的

@mmcv.jit(coderize=True)
def bbox2delta(proposals, gt, means=(0., 0., 0., 0.), stds=(1., 1., 1., 1.)):
    assert proposals.size() == gt.size()
    proposals = proposals.float()
    gt = gt.float()
    # proposals：
    px = (proposals[..., 0] + proposals[..., 2]) * 0.5
    py = (proposals[..., 1] + proposals[..., 3]) * 0.5
    pw = proposals[..., 2] - proposals[..., 0]
    ph = proposals[..., 3] - proposals[..., 1]
	# gt：
    gx = (gt[..., 0] + gt[..., 2]) * 0.5
    gy = (gt[..., 1] + gt[..., 3]) * 0.5
    gw = gt[..., 2] - gt[..., 0]
    gh = gt[..., 3] - gt[..., 1]
	# 计算偏差
    dx = (gx - px) / pw
    dy = (gy - py) / ph
    dw = torch.log(gw / pw)
    dh = torch.log(gh / ph)
    deltas = torch.stack([dx, dy, dw, dh], dim=-1)
# 减均值除以标准差，其中means和stds是为了平衡bbox回归loss和分类loss，避免回归loss远小于分类loss。
    means = deltas.new_tensor(means).unsqueeze(0)
    stds = deltas.new_tensor(stds).unsqueeze(0)
    deltas = deltas.sub_(means).div_(stds)
    return deltas

解码过程类似，可在/mmdetection/mmdet/core/bbox/coder/delta_xywh_bbox_coder.py文件中查看

3、oss_cls->CrossEntropyLoss

交叉熵损失有些复杂，但其本质上就是 LogSoftmax 和 NLLLoss结合：

LogSoftmax：
在这里插入图片描述
NLLLoss：负对数似然（NLL）损失

c在范围 [0, C-1]中，C是类的数量，x 是输入, y 是目标，正确的分类, w 类的权重, and N 是批次数量(batch size).xn,yn表示的是预测正确概率在这里插入图片描述如果reduction不等于 ‘none’，会对这批次(batch)的损失求和或者求均值
CrossEntropyLoss：