基于深度学习的目标检测算法综述（二）—Two/One stage算法改进之R-FCN

最新推荐文章于 2024-07-29 09:11:11 发布

半度微凉1993

最新推荐文章于 2024-07-29 09:11:11 发布

阅读量3k

点赞数

分类专栏： DeepLearning Two-stage

本文链接：https://blog.csdn.net/weixin_36835368/article/details/82688505

版权

本文介绍了基于Faster R-CNN的改进算法R-FCN，通过位置敏感得分图增强位置信息，提升检测精度。同时讨论了R-FCN的网络设计、训练过程和算法效果，以及后续的FCN-3000和Mask R-CNN的改进，强调了解耦检测和分类的重要性以及RoI Align在分割任务中的作用。

摘要由CSDN通过智能技术生成

基于深度学习的目标检测算法综述（一）：https://blog.csdn.net/weixin_36835368/article/details/82687919

1、Two stage

1.1 R-FCN：Object Detection via Region-based Fully Convolutional Networks

1.2-FCN-3000 at 30fps: Decoupling Detection and Classification

1.3 Mask R-CNN

1、Two stage

Faster R-CNN 网络包括两个步骤：

1. 使用RPN(region proposal network)提取 proposal 信息；

2. 使用 R-CNN 对候选框位置进行预测和物体类别识别。

这里主要介绍在 Faster R-CNN 基础上改进的几篇论文：R-FCN、R-FCN3000 和 Mask R-CNN。R-FCN 系列提出了 Position Sensitive(ps)的概念，提升了检测效果。另外需要注明的是，虽然 Mask R-CNN 主要应用在分割上，但该论文和 Faster R-CNN 一脉相承，而且论文提出了 RoI Align 的思想，对物体检测回归框的精度提升有一定效果，故本篇综述也介绍了这篇论文。

1.1 R-FCN：Object Detection via Region-based Fully Convolutional Networks

论文链接：arxiv.org/abs/1605.06409

开源代码：github.com/daijifeng001/R-FCN

录用信息：CVPR2017

论文目标

对预测特征图引入位置敏感分数图提增强征位置信息，提高检测精度。

核心思想

背景

Faster R-CNN 是首个利用 CNN 来完成 proposals 的预测的，之后的很多目标检测网络都是借助了 Faster R-CNN 的思想。而 Faster R-CNN 系列的网络都可以分成 2 个部分：

1.Fully Convolutional subnetwork before RoI Layer

2.RoI-wise subnetwork

第 1 部分就是直接用普通分类网络的卷积层来提取共享特征，后接一个 RoI Pooling Layer 在第 1 部分的最后一张特征图上进行提取针对各个 RoIs 的特征图，最后将所有 RoIs 的特征图都交由第 2 部分来处理（分类和回归）。第二部分通常由全连接层组层，最后接 2 个并行的 loss 函数：Softmax 和 smoothL1，分别用来对每一个 RoI 进行分类和回归。由此得到每个 RoI 的类别和归回结果。其中第 1 部分的基础分类网络计算是所有 RoIs 共享的，只需要进行一次前向计算即可得到所有 RoIs 所对应的特征图。

第 2 部分的 RoI-wise subnetwork 不是所有 RoIs 共享的，这一部分的作用就是给每个 RoI 进行分类和回归。在模型进行预测时基础网络不能有效感知位置信息，因为常见的 CNN 结构是根据分类任务进行设计的，并没有针对性的保留图片中物体的位置信息。而第 2 部分的全连阶层更是一种对于位置信息非常不友好的网络结构。由于检测任务中物体的位置信息是一个很重要的特征，R-FCN 通过提出的位置敏感分数图（position sensitive score maps）来增强网络对于位置信息的表达能力，提高检测效果。

网络设计

position-sensitive score map

图中展示的是 R-FCN 的网络结构图，展示了位置敏感得分图(position-sensitive score map)的主要设计思想。如果一个 RoI 含有一个类别 c 的物体，则将该 RoI 划分为 k x k 个区域，分别表示该物体的各个相应部位。其每个相应的部位都由特定的特征图对其进行特征提取。R-FCN在、共享卷积层的最后再接上一层卷积层，而该卷积层就是位置敏感得分图 position-sensitive score map。其通道数