Fast R-CNN

最新推荐文章于 2023-12-18 23:35:42 发布

Hold on Faith

最新推荐文章于 2023-12-18 23:35:42 发布

阅读量265

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/liuzhen9828/article/details/116587262

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

算法过程

使用SS算法将一张图像生成1k～2k个候选区域
将图像输入网络得到相应的特征图，将SS算法生成的候选框投影到特征图上获得相应的特征矩阵
将每个特征矩阵通过RoI pooling层缩放到7*7大小的特征图，接着将特征图展平通过一系列全连接层得到预测结果

1、使用SS算法将一张图像生成1k～2k个候选区域

这一部分和R-CNN算法一样。

2、将图像输入网络得到相应的特征图，将SS算法生成的候选框投影到特征图上获得相应的特征矩阵

Fast-RCNN将整张图像送入网络，紧接着从特征图像上提取相应的候选区域。这些候选区域的特征不需要再重复计算。
在这里插入图片描述

3、将每个特征矩阵通过RoI pooling层缩放到7*7大小的特征图，接着将特征图展平通过一系列全连接层得到预测结果

RoI Pooling层就是将特征矩阵划分为7x7的小块，然后对每个小块进行MaxPooling或者AveragePooling等操作，就会得到7x7的特征图。这样就可以不限制输入图像的尺寸了。如下图所示
在这里插入图片描述

分类器

两个FC全连接层并联，其中一个分类器进行目标概率预测，另一个用来边界框回归参数的预测。

目标概率预测分类器

输出N+1个类别的概率(N为检测目标的种类，1为背景)共N+1个节点

边界框回归器

输出对应N+1个类别的候选边界框回归参数 $d_x,d_y,d_w,d_h)$ 共(N+1)*4个节点。然后会根
据这些节点进行候选边界框的调整，公式如下:
$\widehat{G}(x)= P_{w}d_{x}(P)+P_{x}$
$\widehat{G}(y)= P_{h}d_{y}(P)+P_{y}$
$\widehat{G}(w)= P_{w}exp(d_{w}(P))$
$\widehat{G}(h)= P_{h}exp(d_{h}(P))$
其中 $P_{x}$ ， $P_{y}$ ， $P_{w}$ ， $P_{h}$ 分别为候选框的中心x，y坐标和宽高
$\widehat{G}(x)$ ， $\widehat{G}(y)$ ， $\widehat{G}(w)$ ， $\widehat{G}(h)$ 分别是最终预测的边界框中心x，y坐标以及宽高。

损失函数

$L(p,u,t^u,v)=L_{cls}(p,u)+\lambda[u\geq1]L_{loc}(t^u,v)$

分类损失

用的是Softmax交叉熵损失函数

多分类问题 $H=-\sum_io_i^*log(o_i)$
二分类问题 $H=-\frac{1}{N}\sum_{i=1}^N[o_i^*logo_i+(1-o_i^*)log(1-o_i)]$

其中 $o_i^*$ 为真实标签， $o_i$ 为预测值，默认log以e为底等于ln

边界框回归损失

$L_{loc}(t^u,v)=\sum_{i \in\left \{ x,y,w,h \right \}}smooth_{L_1}(t_i^u-v_i)$
$smooth_{L_1}(x)=\left \{^{0.5x^2,{if\left | x \right |<1}}_{\left | x \right |-0.5,others}\right.$