关于Faster Rcnn的一些理解_pred.size()[-2]-CSDN博客

本文链接：https://blog.csdn.net/qq_44804542/article/details/123462001

Paper:Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

1.整体网络结构

在这里插入图片描述
faster rcnn是继RCNN，fast RCNN之后又一新作，是何凯明等大神在2015年提出目标检测算法，该算法在2015年的ILSVRV和COCO竞赛中获得多项第一,该算法是目标检测领域的经典算法，值得反复研读；
Faster Rcnn相关链接：
目标检测之正负样本详解
 困难样本挖掘
 目标检测 — Anchor的生成
 Faster_Rcnn误检解决方案—强制负样本策略

2.几大核心部件

Faster R-CNN的结构主要分为四大部分，
第一部分是特征提取部分，包括backbone和neck，用于提取特征。
第二部分是候选区域生成网络-RPN
第三部分是对RPN选取的候选框进行映射的RoI Pooling
第四部分是对候选区域进行分类回归的网络头
在这里插入图片描述

2.1 特征提取

特征提取和常规的检测算法类似，BackBone可以选择VGG、Resnet以及一些轻量级的网络，如Mobilenet、ShulffeNet、Xception等，具体选择参考实际部署的算力和精度需求；Neck部分可以选择输出单层，也可以考虑引入FPN输出多层；

2.2 RPN（Region Proposal Networks）

概述:

RPN的作用：给定一张输入image找出objects可能存在的所有位置。这一阶段的输出应该是一系列object可能位置的bounding
box。这些通常称之为region proposals或者 regions of interest（ROI）；故，RPN
网络是解决region proposal的问题，输入是一副图像的特征图，输出是region proposal。
RPN 是Faster Rcnn的一大创新，主要用于改进是候选框的生成方式，不再依赖于外部区域建议算法；
可以理解为RPN是一个卷积层**（3x3x256维）+ relu + 左右两个1x1卷积层的（cls layer 和 reg layer）**的小网络, 应用在特征图上【滑动窗口区域上】。
在特征图的每一个位置【像素】，我们设置k（9）个不同长宽比例、不同面积的anchor【锚定框】，通过这些anchor逆向推导出它所对应的原始图片中的一个区域，这个区域的尺寸以及坐标都是已知的，而这个区域，就是我们想要的proposal。
对于每个anchor，RPN预测两件事情：第一个是一个锚定框是某个目标的概率（不考虑目标属于哪个类别，只有前景和背景），对应于cls layer，其输出的维度2k；第二个是用于调整锚定框以更好地适合目标的边界框回归器（使得这个anchor box 修正后与 groud truth 的位置尽可能重叠度越高），对应于reg layer其输出的维度4k，表示每个 anchor box对应的4个值，分别表征anchor对 groud truth 的长宽与x、y坐标的预测（偏移量）。

RPN输出region proposal的过程

RPN设置的目的是用于为后续的RCNN提供region proposal，其流程大致如下：

1.假设经过3x3卷积层后得到特征图大小40×60，共2400个点，每个点对应到输入分辨率上设置9个anchor，所以一共可以得到40×60×9大约20000个候选区域，通过1-1的cls layer计算得到所有候选区域预测的scores；
2.根据预测得到的scores对候选区域进行排序，选取score最大的前12000个候选区域；
3.通过非极大值抑制【nms】，设置IOU阈值为0.7，对步骤2筛选的候选区域进一步处理；再在剩余的候选区域中选出score最大的前2000个候选区域
【以上是候选区域选取的大致流程，实际网络结构的不同，如fpn的引入，可能会有一些额外的操作】
【最终输出到rcnn阶段的候选区域数量最多为2000【有可能少】，输出的结果为各候选区域在输入分辨率上的坐标】

以上超参数的设置可以进行调整

    rpn_proposal=dict(
        nms_across_levels=False,
        nms_pre=12000, #nms前根据score选取的候选区域数量
        nms_post