Fast R-CNN 论文学习笔记

最新推荐文章于 2022-05-09 15:07:23 发布

tomeasure

最新推荐文章于 2022-05-09 15:07:23 发布

阅读量389

点赞数

分类专栏： CV 深度学习目标检测文章标签： Fast-RCNN 目标检测计算机视觉图像 RoI池化

本文链接：https://blog.csdn.net/qq_29695701/article/details/100700861

版权

深度学习同时被 3 个专栏收录

45 篇文章 3 订阅

订阅专栏

24 篇文章 2 订阅

订阅专栏

目标检测

19 篇文章 1 订阅

订阅专栏

原论文：《Fast R-CNN》
代码：https://github.com/rbgirshick/fast-rcnn
关键操作：RoI映射、RoI池化

基本说明：

输入：图片及一些目标候选区域
流程：
1. 获取候选框；
2. 对整张图片特征提取，获取特征图；
3. 将候选框映射到特征图上，得到RoI（Region of Interest）；
4. 在RoI上进行RoI池化，再经过全连接层后得到固定长度的特征向量；
5. 将特征向量分别送入两个全连接层；
6. 两个全连接层分别用作分类任务和边界框回归任务。

主要内容介绍

一、获取候选框

与R-CNN使用的方式相同，即使用 Selective Search 算法获取候选框。

二、整张图片特征提取

使用AlexNet、VGG16等卷积网络均可。

三、候选框在特征图上的映射（RoI映射）

可以参考图片在特征提取网络中传递的过程（比如pooling），对候选框的大小进行调整。《目标检测之 Fast R-CNN》对这点介绍的比较详尽，我将这部分摘录如下：

比如采用的是pre-trained 网络模型为VGG16的话，RoIPooling替换掉最后一个max pooling层的话，则原图像要经过4个max pooling层，输出的feature maps是原图像的1/16，因此，将原图像对应的四元数组转换到feature maps上就是每个值都除以16，并量化到最接近的整数。

四、RoI池化（这是稀疏金字塔池化的一种特例）

RoI（Region of Interest）指的是候选框在特征图上的映射。注意，它是特征图上的一部分。
这种池化方法的目的是将大小不一的RoI转换成具有统一行列数的特征图。
具体方法如下（可参考原论文或者《目标检测模型二：Fast-R-CNN，ROI池化》）：

输入：尺寸为 $h\times w$ 的RoI（对于不同的 RoI， $h$ 与 $w$ 的大小都是不相同的）
输出： $H\times W$ 的特征图（ $H$ 与 $W$ 是人为控制的超参数）
操作：将RoI均等的分为 $\frac{h}{H} \times \frac{w}{W}$ 个子窗口（将RoI分出 $\frac{h}{H}$ 行与 $\frac{w}{W}$ 列），然后在每一子窗口上使用max-pooling得到一个值，这些值构成了我们最终想要的大小固定的特征图。
举例：
$\begin{bmatrix} 85 & 9 & 90 & 85 & 77 & 41 & 47 & 17 \\ 91 & 75 & 0 & 26 & 45 & 15 & 38 & 68 \\ 53 & 2 & 95 & 28 & 92 & 1 & 26 & 28 \\ 41 & 96 & 13 & 53 & 33 & 45 & 9 & 57 \\ 12 & 21 & 75 & 91 & 5 & 31 & 68 & 64 \\ 92 & 41 & 57 & 79 & 86 & 63 & 53 & 33 \\ 31 & 67 & 47 & 27 & 43 & 15 & 71 & 27 \\ 85 & 10 & 61 & 42 & 65 & 98 & 100 & 54 \\ \end{bmatrix} \overset{ROI：左下h=5,w=7}{=========>} \begin{bmatrix} 41 & 96 & 13 & 53 & 33 & 45 & 9 \\ 12 & 21 & 75 & 91 & 5 & 31 & 68 \\ 92 & 41 & 57 & 79 & 86 & 63 & 53 \\ 31 & 67 & 47 & 27 & 43 & 15 & 71 \\ 85 & 10 & 61 & 42 & 65 & 98 & 100 \end{bmatrix} \\ \overset{分割：H=2, W=2}{========>} \begin{bmatrix} 41 & 96 & 13 & | & 53 & 33 & 45 & 9 \\ 12 & 21 & 75 & | & 91 & 5 & 31 & 68 \\ \hdashline 92 & 41 & 57 & | & 79 & 86 & 63 & 53 \\ 31 & 67 & 47 & | & 27 & 43 & 15 & 71 \\ 85 & 10 & 61 & | & 42 & 65 & 98 & 100 \end{bmatrix} \overset{max-pooling}{=======>} \begin{bmatrix} 96 & 91 \\ 92 & 100 \end{bmatrix} \\$

五、损失函数

使用多任务损失函数，即同时进行分类与回归的操作：
$L(p,u,t^u,\pmb{v})=L_{cls}(p,u)+\lambda[u\geq 1]L_{loc}(t^u,\pmb{v})$
其中， $L_{cls}$ 是分类任务的损失函数， $L_{loc}$ 是边界框回归的损失函数。u是实际的类别， $\pmb{v}=(v_x,v_y,v_w,v_h)$ 是实际的边界框。对于每一个类别u，网络所输出的边界框是 $\pmb{t}^u=(t^u_x,t^u_y,t^u_w,t^u_h)$ ，这个框应该与 $\pmb{v}$ 越近越好。
此外， $\lambda=1$ ， $[u\geq 1]=\begin{dcases} 1 &\text{if } u\geq 1 \\ 0 &\text{otherwise } \end{dcases}$ 。
分类的损失函数：
$L_{cls}(p,u)=-log(p_u)$
回归的损失函数：
$L_{loc}(t^u,\pmb{v})=\sum_{i\in \{x,y,w,h\}}smooth_{L_{1}}(t^u_i-v_i)$
其中 $smooth_{L_{1}}(x)=\begin{cases} 0.5x^2 &\text{if } |x|<1 \\ |x|-0.5 &\text{otherwise} \end{cases}$ 。

六、其他

1. 截断式奇异值分解（Singular Value Decomposition，SVD）

用于加快大型全连接网络的训练速度：
$\approx U\Sigma_{t}V^T$
这里， $W$ 是 $u\times v$ 的矩阵， $U$ 是 $u\times t$ 的矩阵， $\Sigma_{t}$ 是 $t\times t$ 的对角阵， $V$ 是 $v\times t$ 的矩阵。

可以根据上面的近似公式将一层的全连接网络（输入神经元 $u$ 个，输出神经元 $v$ 个）用两层的全连接网络（输入神经元 $u$ 个，中间层神经元 $t$ 个，输出神经元 $v$ 个，没有非线性计算单元）替代。在这两层神经元中，第一个是权重矩阵 $\Sigma_{t}V^T$ （没有biases），第二个是 $U$ （它的biases与 $W$ 的biases相同）。

说明： 对于 $W$ ，有 $u v$ 个参数；对于 $U\Sigma_{t}V^T$ 有 $t u + t v$ 个参数。如果 $t\ll min(u,v)$ ，则两层的全连接网络在训练起来就会比单层的快（参数更少，所以更快）。

奇异值分解的内容，需要学习《矩阵论》。

2. 小批量采样

参考《Fast-RCNN论文总结整理》

3. 参数初始化

参考《Fast-RCNN论文总结整理》

4. RoI池化中的BP算法

$\frac{\partial L}{\partial x_i}=\sum_{r}\sum_{j}[i=i^{*}(r,j)]\frac{\partial L}{\partial y_{rj}}$
其中，
$x_i$ 是输入到RoI池化层的第 $i$ 个activation；
$y_{rj}$ 是从第 $r$ 个RoI得到的第 $j$ 个池化后的输出： $y_{rj}=x_{i^{*}(r,j)}$ ；
$i^{*}(r,j)=\underset{i'\in R(r,j)}{argmax}(x_{i'})$ ；
$R (r, j)$ 是池化后的输出 $y_{rj}$ 在每个子窗口中的索引集合。