Faster-RCNN详解-CSDN博客

本文链接：https://blog.csdn.net/qq_38622495/article/details/85088583

1 Faster-RCNN(1)输入测试图像；(2)将整张图片输入CNN，进行特征提取；(3)用RPN生成建议窗口(proposals)，每张图片生成300个建议窗口；(4)把建议窗口映射到CNN的最后一层卷积feature map上；(5)通过RoI pooling层使每个RoI生成固定尺寸的feature map；(6)利用Softmax Loss(探测分类概率) 和Smooth ...

摘要由CSDN通过智能技术生成

1 Faster-RCNN

(1)输入测试图像；

(2)将整张图片输入CNN，进行特征提取；

(3)用RPN生成建议窗口(proposals)，每张图片生成300个建议窗口；

(4)把建议窗口映射到CNN的最后一层卷积feature map上；

(5)通过RoI pooling层使每个RoI生成固定尺寸的feature map；

(6)利用Softmax Loss(探测分类概率) 和Smooth L1 Loss(探测边框回归)对分类概率和边框回归(Bounding box regression)联合训练.
在这里插入图片描述

1.1 Conv layers

包含了conv，pooling，relu三种层

1.1.1 VGG

Conv layers部分共有13个conv层，13个relu层，4个pooling层。这里有一个非常容易被忽略但是又无比重要的信息，在Conv layers中：

所有的conv层都是： $kernel\_size=3$ ， $p a d = 1$ ， $s t r i d e = 1$
所有的pooling层都是： $kernel\_size=2$ ， $p a d = 0$ ， $s t r i d e = 2$
Conv layers中的conv层不改变输入和输出矩阵大小

1.2 Region Proposal Networks(RPN)

在这里插入图片描述

遍历Conv layers计算获得的feature maps，为每一个点都配备这9种anchors作为初始的检测框，检测框不准确，还需要精修。

在原文中使用的是ZFmodel中，其Conv Layers中最后的conv5层num_output=256，对应生成256张特征图，相当于一张feature map每个点用256-D的特征表示。
由于输入图像M=800，N=600，且Conv Layers做了4次Pooling，feature map的长宽为[M/16, N/16]=[50, 38]
在conv5之后，做了rpn_conv/3x3卷积，num_output=256，相当于每个点使用了周围3x3的空间信息，同时256-d不变，如图3红框，同时对应图4中的红框中的3x3卷积
假设一共有k个anchor，而每个anhcor要分foreground和background，所以cls=2k scores；而每个anchor都有[x, y, w, h]对应4个偏移量，所以reg=4k coordinates

在这里插入图片描述

第一个支路：18表示 $2 * 9$ ，foreground和background，9个锚框
- caffe的数据结构：blob=[batch_size, channel，height，width]
- reshape前在caffe blob中的存储形式为[1, 18, H, W]
- reshape后在caffe blob中的存储形式为[1, 2, 9*H, W]，单独“腾空”出来一个维度以便softmax分类
- 经过softmax后再reshape恢复原状
第二个支路：36表示 $4 * 9$ ，[x, y, w, h]对应4个偏移量，9个锚框

其实RPN就是在原图尺度上，设置了密密麻麻的候选Anchor。然后用cnn去判断哪些Anchor是里面有目标的foreground anchor，哪些是没目标的backgroud，仅仅是个二分类。

anchor

原图800x600，VGG下采样16倍，feature map每个点设置9个Anchor：
在这里插入图片描述
其中ceil()表示向上取整，是因为VGG输出的feature map size= 50*38。

1.3 bounding box regression

绿色框为飞机的Ground Truth(GT)，红色为提取的foreground anchors，即便红色的框被分类器识别为飞机，但是由于红色的框定位不准，这张图相当于没有正确的检测出飞机。所以我们希望采用一种方法对红色的框进行微调，使得foreground anchors和GT更加接近。
在这里插入图片描述
对于窗口一般使用四维向量 $(x, y, w, h)$ 表示，分别表示窗口的中心点坐标和宽高。红色的框A代表原始的Foreground Anchors，绿色的框G代表目标的GT，我们的目标是寻找一种关系，使得输入原始的anchor A经过映射得到一个跟真实窗口G更接近的回归窗口G’。

给定： $anchor A=(A_{x}, A_{y}, A_{w}, A_{h})$ 和 $GT=[G_{x}, G_{y}, G_{w}, G_{h}]$
寻找一种变换F，使得： $F(A_{x}, A_{y}, A_{w}, A_{h})=(G_{x}^{'}, G_{y}^{'}, G_{w}^{'}, G_{h}^{'})$