（二十二）mmdetection源码解读：faster_rcnn_r50_fpn.py详解roi_head

mm_exploration

已于 2023-09-18 10:55:06 修改

阅读量546

点赞数 3

分类专栏： mmdtection 文章标签： python pytorch 目标检测

于 2023-09-15 16:15:42 首次发布

本文链接：https://blog.csdn.net/m0_37737957/article/details/132900565

版权

mmdtection 专栏收录该内容

28 篇文章 32 订阅

订阅专栏

一、model配置文件->roi_head

目标检测的ROI head是指在区域提议网络（Region Proposal Network，RPN）生成的候选区域中，对候选区域进行分类和边界框回归的神经网络模块。它的作用是通过对提议的区域进行再次筛选，将候选区域中的目标物体进行准确地分类和位置定位，从而完成目标检测的整个流程。

model = dict(
    roi_head=dict(
        type='StandardRoIHead',
        bbox_roi_extractor=dict(
            type='SingleRoIExtractor', 				# RoIExtractor类型
            roi_layer=dict(type='RoIAlign', output_size=7, sampling_ratio=0),
# ROI具体参数： RoI 层的类别为RoIAlign，特征图的输出大小为7， sampling_ratio提取 RoI 特征时的采样率。0 表示自适应比率
            out_channels=256,							# 输出通道数
            featmap_strides=[4, 8, 16, 32]),	# 特征图的步长

        bbox_head=dict(
            type='Shared2FCBBoxHead',		#bbox head 的类别
            in_channels=256,								# bbox head 的输入通道。
            fc_out_channels=1024,					 # FC 层的输出特征通道
            roi_feat_size=7, 									# 候选区域(Region of Interest)特征的大小
            num_classes=80,								# 分类的类别数量
            bbox_coder=dict(								# 第二阶段使用的框编码器
                type='DeltaXYWHBBoxCoder',
                target_means=[0., 0., 0., 0.],		# 用于编码和解码框的均值
                target_stds=[0.1, 0.1, 0.2, 0.2]), # 编码和解码的标准差。因为框更准确，所以值更小，常规设置时 [0.1, 0.1, 0.2, 0.2]。
            reg_class_agnostic=False,				#回归是否与类别无关
                 loss_cls=dict(  # 分类分支的损失函数配置
                type='CrossEntropyLoss',  # 分类分支的损失类型，我们也支持 FocalLoss 等
                use_sigmoid=False,  # 是否使用 sigmoid
                loss_weight=1.0),  # 分类分支的损失权重
            loss_bbox=dict(  # 回归分支的损失函数配置
                type='L1Loss',  # 损失类型，我们还支持许多 IoU Losses 和 Smooth L1-loss 等
                loss_weight=1.0)),  # 回归分支的损失权重

二、roi_head详解

ROI head通常由两个子网络组成：分类子网络和回归子网络。分类子网络用于对候选区域中的物体进行分类，回归子网络则用于对物体位置进行精细调整。
目标检测的ROI head的原理是通过对每个候选区域进行卷积神经网络（CNN）特征提取，并输入到分类子网络和回归子网络中进行分类和边界框回归的操作。一般情况下，候选区域的大小是不同的，因此需要使用ROI Pooling或ROI Align等技术将候选区域缩放到特定大小，以便输入到CNN中进行特征提取。
Pooling：RoI Pooling 直接从feature map 里截取各个兴趣区域(Region of Interest, RoI)的feature, 并换为为相同大小的feature输出。RoI Pooling的作用本质上是为了将不同尺寸的RoI特征转换为相同的特征图输出，保证特征图展开后具有相同的大小尺寸，能够与下层的全连接层连接，分别执行线性分类(linear classifier)和边框回归(bounding box regressor)。
RoI Pooling = crop feature + resize feature
ROI Align：在候选区域边界的像素上采取了更加精细的划分和插值操作，以充分利用和保留边界上的信息。

RPN 层输出每张图片最多 nms_post 个候选框，故 R-CNN 输入 shape 为 (batch, nms_post, 4)，4 表示 RoI 坐标。
利用 RoI 重映射规则，将 nms_post 个候选框映射到 FPN 输出的不同特征图上，提取对应的特征图，然后利用插值思想将其变成指定的固定大小输出，输出 shape 为 (batch, nms_post, 256, roi_feat_size, roi_feat_size)，其中 256 是 FPN 层输出特征图通道大小，roi_feat_size 一般取 7。上述步骤即为 RoIAlign 或者 RoIPool 计算过程。
将 (batch, nms_post, 256, roi_feat_size, roi_feat_size) 数据拉伸为 (batchnms_post, 256roi_feat_sizeroi_feat_size)，转化为 FC 可以支持的格式, 然后应用两次共享卷积，输出 shape 为 (batchnms_post, 1024)。
将 (batchnms_post, 1024) 分成分类和回归分支，分类分支输出 (batchnms_post, num_class+1), 回归分支输出 (batchnms_post, 4num_class)。
下面是我自己的理解：正确性有待评估
(7, 7, 256)->(2, 2, 256)->(1024,1)->(num_class+1)
->num_class*4