Faster RCNN

最新推荐文章于 2022-12-14 23:56:24 发布

马鹤宁

最新推荐文章于 2022-12-14 23:56:24 发布

阅读量520

点赞数 1

分类专栏：机器学习和深度学习之旅文章标签： Faster RCNN

本文链接：https://blog.csdn.net/weixin_42111770/article/details/114755921

版权

机器学习和深度学习之旅专栏收录该内容

84 篇文章 35 订阅

订阅专栏

Faster RCNN

文章目录

Faster RCNN
参考

看这篇文章之前，建议先看如下两篇文章。理解Anchor和RPN之后，就会很轻松理解Faster RCNN。

介绍

Faster RCNN 网络由四部分组成，分别是作为backbone的卷积层，RPN，RoI Pooling和最后的全连接层部分。

backbone是纯卷积网络，主要用于提取特征，常用的是VGG和ResNet网络。其特征会RPN和全连接层共享。
Region Proposal Networks是Faster RCNN的净化。RPN用于生成候选框，分类分支通过softmax判断某个anchor属于positive/negative；回归层用于修正anchors生成精确的候选框。
RoI Pooling层meger backbone的feature map和RPN的proposal，便于后续的全连接层
全连接层用于计算候选框的类别和框框最终的精确位置。

RoI Pooling

RoIl Pooling的输入包括两项，一项是backbone的feature map，另一项是RPN的proposal，尺寸大小各不一样，但是RoI pooling后紧接着全连接层，全连接层的输入要是固定的。所以RoI pooling的作用就是将不同尺寸的输入输出相同的尺寸。如下面的定义如下，经过RoI Pooling之后的feature map 大小为pooled_w * pooled_h，即7*7。为了输出固定尺寸的特征图，RoI Pooling也是属于池化操作，只不过它的kernel大小是动态变化的。

RPN生成的proposal对应Faster RCNN 网络输入大小M*N，使用参数spatial_scale: 0.0625 将其映射到 $\left( M /16 \right) \times \left( M /16 \right)$ 大小的feature map，然后再将proposal对应的feature map均分为pooled_w * pooled_h网格。对每一网格进行max pooling运算。这样输出结果的尺寸大小为pooled_w * pooled_h。

layer {
  name: "roi_pool5"
  type: "ROIPooling"
  bottom: "conv5_3"
  bottom: "rois"
  top: "pool5"
  roi_pooling_param {
    pooled_w: 7
    pooled_h: 7
    spatial_scale: 0.0625 # 1/16
  }
}

Loss Function

$L\left ( \left \{ p_{i} \right \}, \left \{ t_{i} \right \} \right ) = \frac{1}{N_{cls}}\sum _{i} L_{cls} \left \{ p_{i}, p_{i}^{*}\right \} + \lambda \frac{1}{N_{reg}}\sum _{i}p_{i}^{*}L_{reg}\left( t_{i}, t_{i}^{*} \right)$

参数解释：

$i$ 指的是mini-batch中第 $i$ 个anchor的下标
$p_{i}$ 指anchor $i$ 包含一个物体的预测概率
$p_{i}^{*}$ 是ground-truth label，如果anchor是positive，那么 $p_{i}^{*}=0$ ；如果anchor是negative， $p_{i}^{*}=0$
$t_{i}$ 是一个表示预测bbox4个参数坐标的向量
$t_{i}^{*}$ 是一个表示与某一个positive anchor相关联的ground-truth box的4个参数坐标的向量
$L_{cls}$ 是分类loss，是两个类的log loss
$L_{reg}$ 是回归loss， $L_{reg}\left( t_{i}, t_{i}^{*} \right) = soomth_{L1} \left( t_{i} - t_{i}^{*} \right)$
$p_{i}^{*}L_{reg}$ 仅仅对positive anchors（ $p_{i}^{*} = 1$ ）激活，对negative anchors $p_{i}^{*} = 0$ 无效。
$soomth_{L1}\left( x \right) = \left\{\begin{matrix} 0.5 x^{2} & if\left | x \right | <1 \\ \left | x \right | = 0.5 & othersize \end{matrix}\right.$
损失函数的两项分别被 $N_{cls}$ 和 $N_{reg}$ 正则化，并且存在一个参数 $\lambda$
$\begin{matrix} t_{x} = \left( x - x_{a} \right) / w_{a}, \qquad t_{y} = \left( y - y_{a} \right) / h_{a}, \\ t_{w} = log \left( w/ w_{a} \right) , \qquad t_{y} = log \left( h/ h_{a} \right) , \\ t_{x}^{*} = \left( x^{*} - x_{a} \right) / w_{a}, \qquad t_{y}^{*} = \left( y^{*} - y_{a} \right) / h_{a} , \\ t_{w}^{*} = log \left( w^{*} / w_{a} \right) , \qquad t_{h}^{*} = log \left( h^{*} / h_{a} \right), \end{matrix}$

训练方式

Faster RCNN 训练方式有两种，第一种是交替优化方法（alternating optimization），即rpn + fast RCNN，训练了两次，第二种是近似联合训练（approximate joint training），也就是end-to-end的训练方式。

交替优化训练

交替优化
backborn卷积网络我们简称为pre-model，引用已经训练好的VGG，ZF或者ResNet权重。Faster RCNN可看做RPN + Fast RCNN（pre-model + FC）的结合体。

step One ：基于pre-model，训练RPN网络。pre-model和RPN都会被更新。
step Two ：利用生成好的RPN网络提取proposals，训练Fast RCNN。
step Three ：基于第二步训练得到的pre-model，第二次训练RPN网络，训练过程中pre-model冻结。
step Four ：利用第三步训练的RPN网络提取proposals，仍然冻结pre-model，训练Fast RCNN。

注：

pre-model在第一步和第二步训练时，都会更新，两次更新的pre-model的参数是不一样的，这意味着pre-model是不共享的
第三步和第四步的pre-model保持相同并且训练过程中冻结权重。那么第三步训练时更新RPN，第四步训练时更新FC权重。这就是共享

近似联合训练

交替优化训练Faster RCNN分为四步，较繁琐，我们希望能够end-to-end训练并且Faster RCNN的精度保持不变。

下图是py-faster-rcnn的训练网络结构截图和RPN loss部分的Prototxt定义。

近似联合训练

layer {
  name: 'rpn-data'
  type: 'Python'
  bottom: 'rpn_cls_score'
  bottom: 'gt_boxes'
  bottom: 'im_info'
  bottom: 'data'
  top: 'rpn_labels'
  top: 'rpn_bbox_targets'
  top: 'rpn_bbox_inside_weights'
  top: 'rpn_bbox_outside_weights'
  python_param {
    module: 'rpn.anchor_target_layer'
    layer: 'AnchorTargetLayer'
    param_str: "'feat_stride': 16"
  }
}

layer {
  name: "rpn_loss_cls"
  type: "SoftmaxWithLoss"
  bottom: "rpn_cls_score_reshape"
  bottom: "rpn_labels"
  propagate_down: 1
  propagate_down: 0
  top: "rpn_cls_loss"
  loss_weight: 1
  loss_param {
    ignore_label: -1
    normalize: true
  }
}

layer {
  name: "rpn_loss_bbox"
  type: "SmoothL1Loss"
  bottom: "rpn_bbox_pred"
  bottom: "rpn_bbox_targets"
  bottom: 'rpn_bbox_inside_weights'
  bottom: 'rpn_bbox_outside_weights'
  top: "rpn_loss_bbox"
  loss_weight: 1
  smooth_l1_loss_param { sigma: 3.0 }
}

rpn_bbox_inside_weights ：用来设置正样本回归 loss 的权重，默认为 1（负样本为0，即可以区分正负样本是否计算 loss）。
rpn_bbox_outside_weights ：用来平衡 RPN 分类 Loss 和回归 Loss 的权重。

mmdet/models/detectors/two_stages.py中的forward_train函数，记录Faster RCNN 端到端训练时losses的组成。Faster RCNN将rpn的loss和roi的loss记录在一个字典中。

losses

查看训练日志，rpn的loss，rpn_loss_cls和rpn_cls_bbox，和roi的loss，loss_cls和loss_bbox是在一个字典中同时训练的，从而达到端到端的方式。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-CRdEwOOm-1615629854470)(./1614233153898.png)]

附录

Python Template

在**.prototxt文件中，可以定义自己设计的层。类型type必须是Python；必须存在定义至少一个module和layer参数的python_param字典。module指向你实施定义层的文件名称（不带.py后缀），layer指向定义类的名称。你可以通过param_str传递参数到这层中。比如在py-faster-rcnn/models/pascal_voc/VGG16/faster_rcnn_end2end/train.prototxt**中自定义的proposal层。实施层的py文件为py-faster-rcnn/lib/rpn/proposal_layer.py，定义了一个类为ProposalLayer。

layer {
  name: 'proposal'
  type: 'Python'
  bottom: 'rpn_cls_prob_reshape'
  bottom: 'rpn_bbox_pred'
  bottom: 'im_info'
  top: 'rpn_rois'
  python_param {
    module: 'rpn.proposal_layer'
    layer: 'ProposalLayer'
    param_str: "'feat_stride': 16"
  }
}

参考

马鹤宁

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Faster RCNN

Faster RCNN文章目录Faster RCNN介绍RoI PoolingLoss Function训练方式交替优化训练近似联合训练附录Python Template参考看这篇文章之前，建议先看如下两篇文章。理解Anchor和RPN之后，就会很轻松理解Faster RCNN。Faster RCNN 中的AnchorFaster RCNN 中的RPN解析介绍Faster RCNN 网络由四部分组成，分别是作为backbone的卷积层，RPN，RoI Pooling和最后的全连接层部分。
复制链接

扫一扫