目标检测经典模型（二）--fast rcnn

最新推荐文章于 2024-07-25 21:56:26 发布

linxid

最新推荐文章于 2024-07-25 21:56:26 发布

阅读量330

点赞数

分类专栏：目标检测文章标签：目标检测 SPPNet Faster RCNN 计算机视觉

本文链接：https://blog.csdn.net/linxid/article/details/108182520

版权

目标检测专栏收录该内容

2 篇文章 0 订阅

订阅专栏

SPP-Net：

一张图总结：

改进：

整张图输入CNN得到特征图
特征图不需要缩放，经过金字塔池化（SPP）后直接输入到分类和回归模型中

RoI Pooling：

在这里插入图片描述

优缺点：

优点：

解决了rcnn的推理慢的问题

缺点：

在训练的时候不能更新SPP层的参数
继承了RCNN的问题，训练较慢，需要大量的硬盘空间

相比于RCNN的改进：

Fast RCNN将原始图片输入卷积网络中得到特征图，再使用建议框对特征图提取特征框，大大减少了计算量
建议框大小不一，通过ROI池化层将特征框转化为相同大小；
Fast RCNN里没有SVM分类器和回归器了，分类和预测框的位置通过卷积神经网络输出
为了提高计算速度，网络最后使用SVD代替全连接层

算法流程：

输入一张图片，通过Selective Search得到候选建议框；
将原始图片输入到CNN中得到特征图，并且根据建议框，得到候选框在特征图中对应的位置（ROI）；
使用ROI pooling（single-level SPP）将ROI转化成固定大小的 $H\times{W}$ 的特征图；
将特征图拉长成一个向量（ROI特征向量），通过一个全连接层；
然后经过两个输出，一个是softmax目标分类，另一个是边界框回归（bbox regressor）
5.1 目标分类：经过softmax函数得到21个类别的得分（概率）；
5.2 边界框回归：输出 $21\times{4}=84$ 个神经元，21个类别，每个类别4个参数；
使用NMS得到少数候选框，选择概率最大的类，作为标注类

PS：使用SVD来进行全连接层计算加速 其实可以认为是将一个大的全连接层换成两个小的全连接层

一张图总结：

在这里插入图片描述

详细训练过程：

损失函数：

fast RCNN的损失函数是一个多任务损失函数，是目标分类损失和边界框损失的加权和：
$L\left(p, u, t^{u}, v\right)=L_{\mathrm{cls}}(p, u)+\lambda[u \geq 1] L_{\mathrm{loc}}\left(t^{u}, v\right)$
符号解释：
- $u$ ：每个ROI在 $K + 1$ 个类别上的真值
- $p=(p_0, p_1,...p_K)$ ：每个RoI在 $K + 1$ 个类别上的离散概率分布
- $v$ ：真值边界框的回归参数
- $t^u = (t^u_x, t^u_y, t^u_w, t^u_h)$ ：预测边界框的回归参数
- $\lambda[u \geq 1]$ 判决函数：

$\lambda[u>=1]=\left\{\begin{array}{ll} 1 & \text { if } u \geq 1 \\ 0 & \text { otherwise } \end{array}\right.$

目标分类损失：
$L_{cls}(p,u) = -log p_u$
边界框回归损失：
$\mathcal{L}_{\mathrm{box}}\left(t^{u}, v\right)=\sum_{i \in\{x, y, w, h\}} L_{1}^{\mathrm{smooth}}\left(t_{i}^{u}-v_{i}\right)$

$L_{1}^{\mathrm{smooth}}(x)=\left\{\begin{array}{ll} 0.5 x^{2} & \text { if }|x|<1 \\ |x|-0.5 & \text { otherwise } \end{array}\right.$

回归参数：
相对平移量： $(t^u_x, t^u_y)$ :
$t^u_x = (G_x - P_x)/P_w$
$t^u_y = (G_y - P_y)/P_h$
尺寸缩放量： $t^u_w, t^u_h$
$t^u_w = log(G_w/P_w)$
$t^u_h = log(G_h/P_h)$

ROI如何进行反向求导：

普通max pooling求导：

在这里插入图片描述
前向传播： 即把窗口内的最大值传递给下一层；
反向传播： 把梯度值传递给前一层窗口内最大值对应的 ID（max id）

ROI max pooling求导：

设 $x_i$ 为输入层的节点， $y_{rj}$ 为第 $r$ 个候选区域的第 $j$ 个输出节点。
一个输入节点可能和多个输出节点相关连，所以损失函数 $L$ 对输入节点 $x_i$ 的梯度为 $L$ 对各个有可能的RoI的输出节点 $y_{rj}$ 梯度的累加：
$\frac{\partial L}{\partial x_{i}}=\sum_{r} \sum_{j}\left[i=i^{*}(r, j)\right] \frac{\partial L}{\partial y_{r j}}$

判决函数 $i=i^*(r,j)]$ ：表示 $i$ 节点是否被第 $r$ 个RoI的第 $j$ 个输出节点选为最大值输出

linxid

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
目标检测经典模型（二）--fast rcnn

相比于RCNN的改进：Fast RCNN将原始图片输入卷积网络中得到特征图，再使用建议框对特征图提取特征框，大大减少了计算量建议框大小不一，通过ROI池化层将特征框转化为相同大小；Fast RCNN里没有SVM分类器和回归器了，分类和预测框的位置通过卷积神经网络输出为了提高计算速度，网络最后使用SVD代替全连接层算法流程：输入一张图片，通过Selective Search得到候选建议框；将原始图片输入到CNN中得到特征图，并且根据建议框，得到候选框在特征图中对应的位置（ROI）；使用R
复制链接

扫一扫