Fast R-CNN 与 Faster R-CNN

最新推荐文章于 2021-10-28 16:31:27 发布

header_zzj

最新推荐文章于 2021-10-28 16:31:27 发布

阅读量168

点赞数

分类专栏：目标检测文章标签：计算机视觉算法神经网络

本文链接：https://blog.csdn.net/header_zzj/article/details/116789252

版权

目标检测专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Fast R-CNN 论文链接 Fast R-CNN
Faster R-CNN 论文链接 Faster R-CNN

Fast R-CNN

解决R-CNN的问题

R-CNN存在的主要问题：

步骤繁琐：分为多步训练，先要微调一个预训练网络，针对每一个类别都需要训练一个SVM分类器，最后需要对Bounding-Box进行回归，而Region-Proposal需要用selective search得到。
计算资源消耗大，费时：由于训练分类SVM和回归时需要用到网络的输出特征图作为输入，对缓存以及时间的消耗都很大。
前向时间慢：每个Region-Proposal都需要做卷积，重复操作耗时。

基于VGG16的Fast RCNN算法在训练速度上比RCNN快了将近9倍，比SPPnet快大概3倍；测试速度比RCNN快了213倍，比SPPnet快了10倍。在VOC2012上的mAP在66%左右。

算法

Fast R-CNN主干网络使用的是VGG-16。

训练

输入网络的图像大小为 $224\times224$ ，经过5个 $C o n v$ 层和两个 $D o w n S a m p l e$ 层（ $C o n v + D o w n S a m p l e + C o n v + D o w n S a m p l e + C o n v * 3$ ）之后将最后一个 $C o n v$ 的输入和 $Region\ Proposal$ 输入至 $R O I P o o l i n g$ 层，再经过两个 $S i z e = 4096$ 的全连接层，最后并行输入两个全连接层（ $Size_1 =21, Size_2=84$ ），输出每个 $\ Proposal$ 属于21个类别的得分以及每个 $R e g i o n$ 的四个坐标。前者为分类得分，后者为回归输出，分类的损失计算 $L a b e l$ 以及分类层输出的得分，使用的是 $\ With \ Loss$ ；回归的损失计算的是回归层的输出和 $T a r g e t$ 坐标及 $W e i g h t$ ，使用的是 $\ L1 \ Loss$ 。

测试

将两个Loss层更改为一个 $S o f t m a x$ 层，输入分类的得分，输出分类的概率，再对各类别采用 $N M S (N o n - M a x i m u m - S u p p r e s s i o n)$

Fast R-CNN详解

网络输入：

图像
$\ Proposal$ （由 $\ Search$ 得到）

对每个类别训练一个回归器，非背景类别的 $\ Proposal$ 才需要进行回归。

ROI Pooling：作用是对不同大小的 $\ Proposal$ ，从网络最后一层卷积输出的 $\ map$ 提取固定 $s i z e$ 的 $feature\ map$ 。全连接层需要输入尺寸一致，所以不能直接将不同大小的 $\ Proposal$ 映射到 $feature\ map$ 作为输出，需要做尺寸变换。在Fast R-CNN中，VGG16使用 $H = W = 7$ ，即将一个 $h\times w$ 的 $\ Proposal$ 分割成 $H\times W$ 大小的网格，然后将这个 $\ Proposal$ 映射到最后一个卷积层输出的 $feature\ map$ ，最后将每个网格里的最大值作为该网格的输出，经过该层网络输出的 $feature\ map$ 大小固定为 $\times W$ 。

Fast R-CNN 三大改进

1. 针对整张图像进行卷积，减少很多重复计算。
2. 用 $ROI\ Pooling$ 进行特征的尺寸变换。
3. 将回归器输入网络一起训练，每个类别对应一个回归器，并用 $S o f t m a x$ 代替原来的SVM分类器。

在实际训练中，每个mini-batch包含2张图像和128个 $\ proposal$ （或者叫ROI），也就是每张图像有64个ROI。然后从这些ROI中挑选约25%的ROI，这些ROI和ground truth的IOU值都大于0.5。另外只采用随机水平翻转的方式增加数据集。
测试的时候则每张图像大约2000个ROI。

损失函数

分类损失： $L o g$ 损失， $k$ 个类别+1个背景类，回归损失： $\ L1$ 损失。
$L(p,u,t^u,v) = L_{cls}(p,u)+\lambda [u \ge 1] L_{loc}(t^u, v)$ ，
其中，
$L_{cls}(p,u)=-log\ p_u$
表示的是类别 $u$ 的 $l o g$ 损失;
$L_{loc}(t^u, v)=\sum_{i \in \{ x,y,w,h\}}smooth_{L1}(t^u_i-v_i)$ ，
其中，
$smooth_{L1}(x)=\begin{cases} 0.5x^2,\quad if \ |x| < 1 \\ |x|-0.5,\quad otherwise \end{cases}$
其中 $t^u$ 表示预测的结果， $u$ 表示类别， $v$ 为真值。

ROIPooling和总体结构

采用SVD分解改进全连接层。如果是一个普通的分类网络，那么全连接层的计算应该远不及卷积层的计算，但是针对object detection，Fast RCNN在 $\ pooling$ 后每个 $\ proposal$ 都要经过几个全连接层，这使得全连接层的计算占网络的计算将近一半，如下图，所以作者采用SVD来简化全连接层的计算。
在这里插入图片描述

实验结果

精度

在这里插入图片描述

速度

在这里插入图片描述

对比实验

由于本文主要讲RCNN多步骤的网络结构合并在一起，因此需要实验证明这种multi-task训练的方式有效，实验对比结果如下：一共有S，M，L三个组，每个组有4列，分别表示：

仅采用分类训练，测试也没有回归；
采用论文中的分类加回归训练，但是测试时候没有回归；
采用分段训练，测试时候有回归；
采用论文中的分类加回归训练，且测试时候有回归。
这种multi-task在最近两年的object detection算法中非常普遍。

然后是多尺度和单尺度的对比：这里多尺度的5表示输入图像采用5中不同的尺寸，比如 $[480, 576, 688, 864, 1200]$ ，在测试的时候发现多尺度虽然能在mAP上取得一点提升，但是时间代价也比较大。作者直接给出原因：深度卷积网络可以学习尺度不变性。
在这里插入图片描述

总结

Fast RCNN将RCNN众多步骤整合在一起，不仅大大提高了检测速度，也提高了检测准确率。其中，对整张图像卷积而不是对每个region proposal卷积，ROI Pooling，分类和回归都放在网络一起训练的multi-task loss是算法的三个核心。另外还有SVD分解等是加速的小贡献，数据集的增加时mAP提高的小贡献。
当然Fast RCNN的主要缺点在于region proposal的提取使用selective search，目标检测时间大多消耗在这上面（提region proposal 2~3s，而提特征分类只需0.32s），这也是后续Faster RCNN的改进方向之一。

Faster R-CNN

在这里插入图片描述
Faster R-CNN由以下部分组成：

1. Conv layers。作为一种CNN网络目标检测方法，Faster RCNN首先使用一组基础的conv+relu+pooling层提取image的feature maps。该feature maps被共享用于后续RPN层和全连接层。
2. Region Proposal Networks。RPN网络用于生成region proposals。该层通过softmax判断anchors属于foreground或者background，再利用bounding box regression修正anchors获得精确的proposals。
3. ROI Pooling。该层收集输入的feature maps和proposals，综合这些信息后提取proposal feature maps，送入后续全连接层判定目标类别。
4. Classification。利用proposal feature maps计算proposal的类别，同时再次bounding box regression获得检测框最终的精确位置。

在这里插入图片描述

上图为Python版本中的VGG16模型中的faster_rcnn_test.pt的网络结构，可以清晰的看到该网络对于一副任意大小 $\times Q$ 的图像，首先缩放至固定大小 $\times N$ ，然后将 $M\times N$ 图像送入网络；而Conv layers中包含了 $13 * c o n v + 13 * r e l u + 4 * p o o l i n g$ ；RPN网络首先经过 $3\times 3$ 卷积，再分别生成 $foreground\ anchors$ 与 $bounding\ box\ regression$ 偏移量，然后计算出 $p r o p o s a l s$ ；而 $\ Pooling$ 层则利用 $p r o p o s a l s$ 从 $feature\ maps$ 中提取 $proposal\ feature$ 送入后续全连接和 $s o f t m a x$ 网络作 $c l a s s i f i c a t i o n$ （即分类 $p r o p o s a l$ 到底是什么 $o b j e c t$ ）。

逐层分析

Conv layers： $Conv\ layers$ 包含了 $c o n v$ ， $p o o l i n g$ ， $r e l u$ 三种层。以python版本中的VGG16模型中的faster_rcnn_test.pt的网络结构为例， $Conv\ layers$ 部分共有13个 $c o n v$ 层，13个 $r e l u$ 层，4个 $p o o l i n g$ 层。在 $Conv\ layers$ 中所有的 $c o n v$ 层都是： $kernel\_size=3,pad=1$ ，所有的 $p o o l i n g$ 层都是： $kernel_size=2,stride=2$ 。在Faster R-CNN中的 $Conv\ layers$ 中对所有的卷积都做了扩边处理（ $p a d = 1$ ，即填充一圈0），导致原图变为 $(M+2)\times (N+2)$ 大小，再做 $3\times 3$ 卷积后输出 $M\times N$ 。正是这种设置，导致 $Conv\ layers$ 中的 $c o n v$ 层不改变输入和输出矩阵大小。 $Conv\ layers$ 中的 $p o o l i n g$ 层 $kernel\_size=2,stride=2$ 。这样每个经过 $p o o l i n g$ 层的 $M\times N$ 矩阵，都会变为 $(M/2)\times (N/2)$ 大小。综上所述，在整个 $Conv\ layers$ 中， $c o n v$ 和 $r e l u$ 层不改变输入输出大小，只有 $p o o l i n g$ 层使输出长宽都变为输入的 $\frac{1}{2}$ 。，一个 $M\times N$ 大小的矩阵经过 $Conv\ layers$ 固定变为 $(M/16)\times (N/16)$ ，这样 $Conv\ layers$ 生成的 $featuure\ map$ 中都可以和原图对应起来。
Region Proposal Networks(RPN)：经典的检测方法生成检测框都非常耗时，如OpenCV adaboost使用滑动窗口+图像金字塔生成检测框；或如RCNN使用SS(Selective Search)方法生成检测框。而Faster R-CNN则抛弃了传统的滑动窗口和SS方法，直接使用RPN生成检测框，这也是Faster R-CNN的巨大优势，能极大提升检测框的生成速度。RPN网络实际分为2条线，上面一条通过 $s o f t m a x$ 分类 $a n c h o r s$ 获得 $f o r e g r o u n d$ 和 $b a c k g r o u n d$ （检测目标是 $f o r e g r o u n d$ ），下面一条用于计算对于 $a n c h o r s$ 的 $bounding\ box\ regression$ 偏移量，以获得精确的 $p r o p o s a l$ 。而最后的 $p r o p o s a l$ 层则负责综合 $foreground\ anchors$ 和 $bounding\ box\ regression$ 偏移量获取 $p r o p o s a l s$ ，同时剔除太小和超出边界的 $p r o p o s a l s$ 。整个网络到了 $proposal\ layer$ 这里，就完成了相当于目标定位的功能。
与RPN网络相关的是Anchor，由四个值构成 $x_1,y_1,x_2,y_2]$ 代表矩形左上和右下角点坐标。 $9$ 个矩形共有 $3$ 种形状，长宽比为大约为： $w i d t h : h e i g h t = [1 : 1, 1 : 2, 2 : 1]$ 三种，通过anchors就引入了检测中常用到的多尺度方法。anchors中长宽 $1 : 2$ 中最大为 $352\times 704$ ，长宽 $2 : 1$ 中最大 $736\times 384$ ，基本是cover了 $800\times 600$ 的各个尺度和形状。遍历 $conv\ layers$ 计算获得的 $feature\ maps$ ，为每一个点都配备 $9$ 种 $a n c h o r s$ 作为初始的检测框。这样做获得检测框很不准确，之后 $2$ 次 $bounding\ box\ regression$ 可以修正检测框位置。
上图中在原文中使用的是ZF model中，其 $Conv\ Layers中$ 最后的 $c o n v 5$ 层 $num\_output=256$ ，对应生成256张特征图，所以相当于 $feature\ map$ 每个点都是 $256 - d$ ；在 $c o n v 5$ 之后，做了 $rpn\_conv/3\times 3$ 卷积且 $num\_output=256$ ，相当于每个点又融合了周围 $3\times 3$ 的空间信息，同时 $256 - d$ 不变；假设在 $c o n v 5$ 的 $feature\ map$ 中每个点上有 $k$ 个 $a n c h o r$ （默认 $k = 9$ ），而每个 $a n h c o r$ 要分 $f o r e g r o u n d$ 和 $b a c k g r o u n d$ ，所以每个点由 $256 d$ $f e a t u r e$ 转化为 $cls=2k\ scores$ ；而每个 $a n c h o r$ 都有 $[x, y, w, h]$ 对应 $4$ 个偏移量，所以 $reg=4k\ coordinates$ ；由于如果所有 $a n c h o r s$ 参与训练则太多了，训练程序会选取 $256$ 个合适的 $a n c h o r s$ 进行训练。
PS: 文中使用的VGG网络 $c o n v 5$ $num\_output=512$ ，所以是 $512 d$ 。
RPN最终就是在原图尺度上，设置了密密麻麻的候选Anchor。然后用CNN去判断哪些Anchor是里面有目标的positive anchor，哪些是没目标的negative anchor。作为二分类任务。
$A n c h o r$ 数量：原图 $800\times 600$ ，VGG下采样 $16$ 倍， $feature\ map$ 每个点设置 $9$ 个 $A n c h o r$ ：
$ceil(800/16)\times ceil(600/16) \times 9 = 50 \times 38 \times 9=17100$
Bounding Box Regression原理
如图所示绿色框为飞机的 $Ground\ Truth(GT)$ ，红色为提取的 $positive\ anchors$ ，即便红色的框被分类器识别为飞机，但是由于红色的框定位不准，这张图相当于没有正确的检测出飞机。所以采用一种方法对红色的框进行微调，使得 $positive\ anchors$ 和 $G T$ 更加接近。

对于窗口一般使用四维向量 $[x, y, w, h]$ 表示，分别表示窗口的中心点坐标和宽高。对于下图，红色的框 $A$ 代表原始的 $positive\ Anchors$ ，绿色的框 $G$ 代表目标的 $G T$ ，目标是寻找一种关系，使得输入原始的 $anchor\ A$ 经过映射得到一个跟真实窗口 $G$ 更接近的回归窗口 $G^{'}$ ，即：

1、给定 $anchor\ A = (A_x, A_y, A_w, A_h)$ 和 $GT=[G_x, G_y, G_w, G_h]$ 。
2、寻找一种变换 $F$ ，使得 $F(A_x, A_y, A_w, A_h)=(G'_x,G'_y, G'_w, G'_h)$ ，其中 $(G'_x,G'_y, G'_w, G'_h)\approx (G_x, G_y, G_w, G_h)$
步骤：
先做平移： $G'_x=A_w\cdot d_x(A)+A_x$ $G'_y=A_h\cdot d_y(A)+A_y$
再做缩放： $G'_w=A_w\cdot exp(d_w(A))$ $G'_h=A_h\cdot exp(d_h(A))$
需要学习四个变换 $d_x(A),d_y(A),d_w(A),d_h(A)$ ，当输入的 $anchor\ A$ 与 $G T$ 相差较小时，可以认为这种变换是一种线性变换，那么就可以用线性回归来建模对窗口进行微调（注意，只有当 $anchors\ A$ 和 $G T$ 比较接近时，才能使用线性回归模型，否则就是复杂的非线性问题了）。
线性回归就是给定输入的特征向量 $X$ , 学习一组参数 $W$ , 使得经过线性回归后的值跟真实值 $Y$ 非常接近，即 $Y = W X$ 。对于该问题，输入 $X$ 是 $cnn\ feature\ map$ ，定义为 $\phi$ ；同时还有训练传入 $A$ 与 $G T$ 之间的变换量，即 $t_x,t_y,t_w,t_h)$ 。输出是 $d_x(A),d_y(A),d_w(A),d_x(A))$ 四个变换。目标函数表示为： $d_*(A)=W^T_*\cdot \phi (A)$ 其中 $\phi(A)$ 是对应 $a n c h o r$ 的 $feature\ map$ 组成的特征向量， $W_*$ 是需要学习的参数， $d_*(A)$ 是得到的预测值（ $*$ 表示 $x, y, w, h$ ，也就是每一个变换对应一个上述目标函数）。为了让预测值 $d_*(A)$ 与真实值 $t_*$ 差距最小，设计 $L 1$ 损失函数： $Loss=\sum ^N_i|t^i_*-W^T_*\cdot \phi (A^i)|$ 函数优化目标为： $\hat{W}_*=argmin_{W_*}\sum^n_i|t^i_*-W^T_*\cdot \phi(A^i)|+\lambda ||W_*||$ 为了方便描述，这里以 $L 1$ 损失为例介绍，而真实情况中一般使用 $s o o m t h - L 1$ 损失。
需要说明，只有在 $G T$ 与需要回归框位置比较接近时，才可近似认为上述线性变换成立。
对应于Faster RCNN原文， $positive\ anchor$ 与 $ground\ truth$ 之间的平移量 $t_x,t_y)$ 与尺度因子 $t_w,t_h)$ 如下： $t_x=(x-x_a)/w_a \quad t_y=(y-y_a)/h_a$ $t_w=log(w/w_a) \quad t_h=log(h/h_a)$ 对于训练 $bouding\ box\ regression$ 网络回归分支，输入是 $cnn\ feature\ \phi$ ，监督信号是 $A n c h o$ 与 $G T$ 的差距 $t_x,t_y,t_w,t_h)$ ，即训练目标是：输入 $\phi$ 的情况下使网络输出与监督信号尽可能接近。那么当 $bouding\ box\ regression$ 工作时，再输入 $\phi$ 时，回归网络分支的输出就是每个 $A n c h o r$ 的平移量和变换尺度 $t_x,t_y,t_w,t_h)$ ，显然即可用来修正 $A n c h o r$ 位置了。
对proposals进行bounding box regression

其 $num\_output=36$ ，即经过该卷积输出图像为 $W\times H\times 36$ ，在 $caffe\ blob$ 存储为 $4\times 9, H, W]$ ，这里相当于 $feature\ maps$ 每个点都有 $9$ 个 $a n c h o r s$ ，每个 $a n c h o r s$ 又都有 $4$ 个用于回归的 $d_x(A),d_y(A),d_w(A),d_h(A)]$ 变换量。VGG输出 $50\times 38\times 512$ 的特征，对应设置 $50\times 38\times k$ 个 $a n c h o r s$ ，而 $R P N$ 输出：
1、大小为 $50\times 38\times 2k$ 的positive/negative softmax分类特征矩阵；
2、大小为 $50\times 38\times 4k$ 的regression坐标回归特征矩阵；
恰好满足RPN完成 $p o s i t i v e / n e g a t i v e$ 分类 $+bounding\ box\ regression$ 坐标回归。
Proposal Layer
$Proposal\ Layer$ 负责综合所有 $d_x(A),d_y(A),d_w(A),d_h(A)]$ 变换量和 $positive\ anchors$ ，计算出精准的 $p r o p o s a l$ ，送入后续 $RoI\ Pooling\ Layer$ 。
$Proposal\ Layer$ 有3个输入： $positive\ vs\ negative\ anchors$ 分类器结果 $rpn\_cls\_prob\_reshape$ ，对应的 $bbox\ reg$ 的 $d_x(A),d_y(A),d_w(A),d_h(A)]$ 变换量 $rpn\_bbox\_pred$ ，以及 $im\_info$ 。 $im_info$ 是对于一副任意大小 $P\times Q$ 图像，传入 $Faster\ R-CNN$ 前首先 $r e s h a p e$ 到固定 $M\times N$ ， $im_info=[M, N, scale\_factor]$ 则保存了此次缩放的所有信息。然后经过 $Conv\ Layers$ ，经过 $4$ 次 $p o o l i n g$ 变为 $W\times H=(M/16)\times (N/16)$ 大小，其中 $feature\_stride=16$ 则保存了该信息，用于计算 $a n c h o r$ 偏移量。
$Proposal\ Layer\ forward$ 按照以下顺序依次处理：
1、生成 $a n c h o r s$ ，利用 $d_x(A),d_y(A),d_w(A),d_h(A)]$ 对所有的 $a n c h o r s$ 做 $bbox\ regression$ 回归（这里的 $a n c h o r s$ 生成和训练时完全一致）；
2、按照输入的 $positive\ softmax\ scores$ 由大到小排序 $a n c h o r s$ ，提取前 $pre\_nms\_topN(e.g. 6000)$ 个 $a n c h o r$ ，即提取修正位置后的 $positive\ anchors$ ；
3、限定超出图像边界的 $positive\ anchors$ 为图像边界，防止后续 $roi\ pooling$ 时 $p r o p o s a l$ 超出图像边界；
4、剔除尺寸非常小的 $positive\ anchors$ ；
5、对剩余的 $positive\ anchors$ 进行 $NMS(nonmaximum\ suppression)$ ；
6、 $KaTeX parse error: Undefined control sequence: \l at position 8: Proposa\̲l̲ ̲Layer$ 有3个输入： $p o s i t i v e$ 和 $negative\ anchors$ 分类器结果 $rpn\_cls\_prob\_reshape$ ，对应的 $bbox\ reg(e.g. 300)$ 结果作为 $p r o p o s a l$ 输出。
之后输出 $proposal=[x_1, y_1, x_2, y_2]$ ，注意，由于在第三步中将 $a n c h o r s$ 映射回原图判断是否超出边界，所以这里输出的 $p r o p o s a l$ 是对应 $M\times N$ 输入图像尺度的，这点在后续网络中有用。严格意义上的检测应该到此就结束了，后续部分应该属于识别了。
RPN总结：
生成anchors -> softmax分类器提取positvie anchors -> bbox reg回归positive anchors -> Proposal Layer生成proposals

RoI Pooling

$RoI\ Pooling$ 层则负责收集 $p r o p o s a l$ ，并计算出 $proposal\ feature\ maps$ ，送入后续网络。 $Rol\ pooling$ 层有2个输入：

原始的 $feature\ maps$
$R P N$ 输出的 $proposal\ boxes$ （大小各不相同）

为何需要RoI Pooling

先来看一个问题：对于传统的 $C N N$ （如 $A l e x N e t$ 和 $V G G$ ），当网络训练好后输入的图像尺寸必须是固定值，同时网络输出也是固定大小的 $vector\ or\ matrix$ 。如果输入图像大小不定，这个问题就变得比较麻烦。有 $2$ 种解决办法：

从图像中 $c r o p$ 一部分传入网络
将图像 $w a r p$ 成需要的大小后传入网络

在这里插入图片描述
$c r o p$ 后破坏了图像的完整结构， $w a r p$ 破坏了图像原始形状信息。所以需要 $RoI\ Pooling$ 。

RoI Pooling原理

$RoI\ Pooling\ layer\ forward$ 过程：

由于 $p r o p o s a l$ 是对应 $M\times N$ 尺度的，所以首先使用 $spatial\_scale$ 参数将其映射回 $(M/16)\times (N/16)$ 大小的 $feature\ map$ 尺度；
再将每个 $p r o p o s a l$ 对应的 $feature\ map$ 区域水平分为 $pooled\_w\times pooled\_h$ 的网格；
对网格的每一份都进行 $max\ pooling$ 处理。

这样处理后，即使大小不同的 $p r o p o s a l$ 输出结果都是 $pooled\_w\times pooled\_h$ 固定大小，实现了固定长度输出。
在这里插入图片描述

Classification

$C l a s s i f i c a t i o n$ 部分利用已经获得的 $proposal\ feature\ maps$ ，通过 $full\ connect$ 层与 $s o f t m a x$ 计算每个 $p r o p o s a l$ 具体属于那个类别（如人，车，电视等），输出 $cls\_prob$ 概率向量；同时再次利用 $bounding\ box\ regression$ 获得每个 $p r o p o s a l$ 的位置偏移量 $bbox\_pred$ ，用于回归更加精确的目标检测框。 $C l a s s i f i c a t i o n$ 部分网络结构如图：
在这里插入图片描述
从 $RoI\ Pooling$ 获取到 $7\times 7=49$ 大小的 $proposal\ feature\ maps$ 后，送入后续网络，可以看到做了如下 $2$ 件事：

通过全连接和 $s o f t m a x$ 对 $p r o p o s a l s$ 进行分类，这实际上已经是识别的范畴了
再次对 $p r o p o s a l s$ 进行 $bounding\ box\ regression$ ，获取更高精度的 $rect\ box$

这里来看看全连接层 $InnerProduct\ layers$ ，简单的示意图如图：”
在这里插入图片描述
其计算公式如下：
$\begin{pmatrix}x_1& x_2&x_3\end{pmatrix}\begin{pmatrix}w_{11}& w_{12}\\w_{21}&w_{22}\\w_{31}&w_{32}\end{pmatrix}+\begin{pmatrix}b_1& b_2\end{pmatrix}=\begin{pmatrix}y_1& y_2\end{pmatrix}$
其中 $W$ 和 $bias\ B$ 都是预先训练好的，即大小是固定的，当然输入 $X$ 和输出 $Y$ 也就是固定大小。所以，这也就印证了之前 $RoI\ Pooling$ 的必要性。

Faster R-CNN训练

Faster R-CNN的训练，是在已经训练好的model（如VGG_CNN_M_1024，VGG，ZF）的基础上继续进行训练。实际中训练过程分为6个步骤：

1. 在已经训练好的model上，训练RPN网络，对应stage1_rpn_train.pt
2. 利用步骤1中训练好的RPN网络，收集proposals，对应rpn_test.pt
3. 第一次训练Fast RCNN网络，对应stage1_fast_rcnn_train.pt
4. 第二训练RPN网络，对应stage2_rpn_train.pt
5. 再次利用步骤4中训练好的RPN网络，收集proposals，对应rpn_test.pt 第二次训练Fast
6. RCNN网络，对应stage2_fast_rcnn_train.pt

可以看到训练过程类似于一种“迭代”的过程，不过只循环了2次。至于只循环了2次的原因是应为作者提到：“A similar alternating training can be run for more iterations, but we have observed negligible improvements”，即循环更多次没有提升了。

训练RPN网络

首先读取RBG提供的预训练好的model（本文使用VGG），开始迭代训练。来看看stage1_rpn_train.pt网络结构，如图：在这里插入图片描述
与检测网络类似的是，依然使用 $Conv\ Layers$ 提取 $feature\ maps$ 。整个网络使用的 $L o s s$ 如下：
$L(\{p_i\},\{t_i\})=\frac{1}{N_{cls}}\sum_iL_{cls}(p_i,p^*_i)+\lambda \frac{1}{N_{reg}}\sum_ip^*_iL_{reg}(t_i,t^*_i)$
上述公式中 $i$ 表示 $anchors\ index$ ， $p_i$ 表示 $positive\ softmax\ probability$ ， $p^*_i$ 代表对应的 $GT\ predict$ 概率（即当第 $i$ 个 $a n c h o r$ 与 $G T$ 间 $I o U > 0.7$ ，认为是该 $a n c h o r$ 是 $p o s i t i v e$ ， $p^*_i=1$ ；反之 $I o U < 0.3$ 时，认为是该 $a n c h o r$ 是 $n e g a t i v e$ ， $p^*_i=0$ ；至于那些 $0.3 < I o U < 0.7$ 的 $a n c h o r$ 则不参与训练）； $t$ 代表 $predict\ bounding\ box$ ， $t^*$ 代表对应 $positive\ anchor$ 对应的 $GT\ box$ 。可以看到，整个 $L o s s$ 分为 $2$ 部分：

$cls\ loss$ ，即 $rpn\_cls\_loss$ 层计算的 $softmax\ loss$ ，用于分类 $a n c h o r s$ 为 $p o s i t i v e$ 与 $n e g a t i v e$ 的网络训练
$reg\ loss$ ，即 $rpn\_loss\_bbox$ 层计算的 $soomth\ L1\ loss$ ，用于 $bounding\ box\ regression$ 网络训练。注意在该 $l o s s$ 中乘了 $p^*_i$ ，相当于只关心 $positive\ anchors$ 的回归（其实在回归中也完全没必要去关心 $n e g a t i v e$ ）。

由于在实际过程中， $N_{cls}$ 和 $N_{reg}$ 差距过大，用参数 $\lambda$ 平衡二者（如 $N_{cls}=256,N_{reg}=2400$ 时设置 $\lambda=\frac{N_{reg}}{N_{cls}}\approx10$ ），使总的网络 $L o s s$ 计算过程中能够均匀考虑 $2$ 种 $L o s s$ 。这里比较重要是 $L_{reg}$ 使用的 $soomth\ L1\ loss$ ，计算公式如下： $L_{reg}(t_i,t^*_i)=\sum_{i\in \{x,y,w,h\}}smooth_{L1}(t_i-t^*_i) \\ smooth_{L1}(x)=\begin{cases}0.5x^2,\quad if \ |x| < 1 \\|x|-0.5,\quad otherwise \end{cases}$

在RPN训练阶段， $r p n - d a t a$ （ $python\ AnchorTargetLayer$ ）层会按照和 $t e s t$ 阶段 $P r o p o s a l$ 层完全一样的方式生成 $A n c h o r s$ 用于训练
对于 $rpn\_loss\_cls$ ，输入的 $rpn\_cls\_scors\_reshape$ 和 $rpn\_labels$ 分别对应 $p$ 与 $p^*$ ， $N_{cls}$ 参数隐含在 $p$ 与 $^*$ 的 $caffe\ blob$ 的大小中
对于 $rpn\_loss\_bbox$ ，输入的 $rpn\_bbox\_pred$ 和 $rpn\_bbox\_targets$ 分别对应 $t$ 与 $t^*$ ， $rpn\_bbox\_inside\_weigths$ 对应 $p^*$ ， $rpn\_bbox\_outside\_weigths$ 未用到（从 $soomth\_L1\_Loss\ layer$ 代码中可以看到），而 $N_{reg}$ 同样隐含在 $caffe\ blob$ 大小中

这样，公式与代码就完全对应了。特别需要注意的是，在训练和检测阶段生成和存储 $a n c h o r s$ 的顺序完全一样，这样训练结果才能被用于检测！

通过训练好的RPN网络收集proposals

在该步骤中，利用之前的 $R P N$ 网络，获取 $proposal\ rois$ ，同时获取 $positive\ softmax\ probability$ ，如图，然后将获取的信息保存在 $python\ pickle$ 文件中。该网络本质上和检测中的 $R P N$ 网络一样，没有什么区别。
在这里插入图片描述

训练Faster RCNN网络

读取之前保存的 $p i c k l e$ 文件，获取 $p r o p o s a l s$ 与 $positive\ probability$ 。从 $d a t a$ 层输入网络。然后：

将提取的 $p r o p o s a l s$ 作为rois传入网络，如下图蓝框
计算 $bbox\_inside\_weights+bbox\_outside\_weights$ ，作用与 $R P N$ 一样，传入 $soomth\_L1\_loss\ layer$ ，如下图绿框

这样就可以训练最后的识别 $s o f t m a x$ 与最终的 $bounding\ box\ regression$ 了。
在这里插入图片描述
之后的stage2训练都是大同小异，不再赘述了。 $Faster\ R-CNN$ 还有一种 $e n d - t o - e n d$ 的训练方式，可以一次完成 $t r a i n$ ：
Faster R-CNN-github

问题

为什么Anchor坐标中有负数？
回顾 $a n c h o r$ 生成步骤：首先生成 $9$ 个 $base\ anchor$ ，然后通过坐标偏移在 $50\times 38$ 大小的 $\frac{1}{16}$ 下采样 $Feature\ Map$ 每个点都放上这 $9$ 个 $base\ anchor$ ，就形成了 $50\times 38\times k$ 个 $a n h c o r s$ 。至于这 $9$ 个 $base\ anchor$ 坐标是什么其实并不重要，不同代码实现也许不同。
显然这里面有一部分边缘 $a n c h o r s$ 会超出图像边界，而真实中不会有超出图像的目标，所以会有 $clip\ anchor$ 步骤。
Anchor到底与网络输出如何对应？
VGG输出 $50\times 38\times 512$ 的特征，对应设置 $50\times 38\times k$ 个 $a n c h o r s$ ，而 $R P N$ 输出 $50\times 38\times 2k$ 的分类特征矩阵和 $50\times 38\times 4k$ 的坐标回归特征矩阵。
其实在实现过程中，每个点的 $2 k$ 个分类特征与 $4 k$ 回归特征，与 $k$ 个 $a n c h o r$ 逐个对应即可，这实际是一种“人为设置的逻辑映射”。当然，也可以不这样设置，但是无论如何都需要保证在训练和测试过程中映射方式必须一致。
为何有ROI Pooling还要把输入图片resize到固定大小的MxN
由于引入 $ROI\ Pooling$ ，从原理上说 $Faster\ R-CNN$ 确实能够检测任意大小的图片。但是由于在训练的时候需要使用大 $b a t c h$ 训练网络，而不同大小输入拼 $b a t c h$ 在实现的时候代码较为复杂，而且当时以 $C a f f e$ 为代表的第一代深度学习框架也不如 $T e n s o r f l o w$ 和 $P y T o r c h$ 灵活，所以作者选择了把输入图片 $r e s i z e$ 到固定大小的 $800\times 600$ 。