F-RCNN原理解释

最新推荐文章于 2023-02-12 17:00:47 发布

淹死的儿有水吃

最新推荐文章于 2023-02-12 17:00:47 发布

阅读量558

点赞数

文章标签：计算机视觉人工智能

本文链接：https://blog.csdn.net/l770595619/article/details/121260969

版权

F-RCNN是一种基于深度学习的目标检测框架，包括区域建议网络（RPN）和Fast R-CNN两部分。RPN通过在特征图上滑动窗口产生anchors，根据与Ground Truth的IoU匹配，分为前景和背景，用于训练分类和回归。通过bounding box regression调整anchors位置，生成初步提案。最后，通过NMS去除重复提案，输出最终检测结果。

摘要由CSDN通过智能技术生成

1.anchors
在这里插入图片描述

特征可以看做一个尺度5139的256通道图像，对于该图像的每一个位置，考虑9个可能的候选窗口：三种面积{128,256,512}×{128,256,512}×三种比例{1:1,1:2,2:1}{1:1,1:2,2:1}。这些候选窗口称为anchors。下图示出5139个anchor中心，以及9种anchor示例。

在这里插入图片描述

{1282,2562,5122}×{1282,2562,5122}×三种比例{1:1,1:2,2:1}{1:1,1:2,2:1}。这些候选窗口称为anchors。下图示出51*39个anchor中心，以及9种anchor示例。

2.SOFTMAX的两支

在这里插入图片描述

计算每个像素256-d的9个尺度下的值，得到9个anchor，我们给每个anchor分配一个二进制的标签（前景背景）。我们分配正标签前景给两类anchor：1）与某个ground truth（GT）包围盒有最高的IoU重叠的anchor（也许不到0.7），2）与任意GT包围盒有大于0.7的IoU交叠的anchor。注意到一个GT包围盒可能分配正标签给多个anchor。我们分配负标签（背景）给与所有GT包围盒的IoU比率都低于0.3的anchor。非正非负的anchor对训练目标没有任何作用，由此输出维度为（2*9）18，一共18维。

假设在conv5 feature map中每个点上有k个anchor（默认k=9），而每个anhcor要分foreground和background，所以每个点由256d feature转化为cls=2k scores；而每个anchor都有[x, y, w, h]对应4个偏移量，所以reg=4k coordinates

补充一点，全部anchors拿去训练太多了，训练程序会在合适的anchors中随机选取128个postive anchors+128个negative anchors进行训练。

-------------------------------------------------------分割线-------------------------------------------------------------------

以上是传统的RPN，下面是Faster R-CNN 的RPN部分。

3.bounding box regression

前2.）中已经计算出foreground anchors，使用bounding box regression回归得到预设anchor-box到ground-truth-box之间的变换参数，即平移（dx和dy）和伸缩参数（dw和dh），由此得到初步确定proposal。

如图9所示绿色框为飞机的Ground Truth(GT)，红色为提取的foreground anchors，那么即便红色的框被分类器识别为飞机，但是由于红色的框定位不准，这张图相当于没有正确的检测出飞机。所以我们希望采用一种方法对红色的框进行微调，使得foreground anchors和GT更加接近。
在这里插入图片描述

缩进对于窗口一般使用四维向量(x, y, w, h)表示，分别表示窗口的中心点坐标和宽高。对于图 10，红色的框A代表原始的Foreground Anchors，绿色的框G代表目标的GT，我们的目标是寻找一种关系，使得输入原始的anchor A经过映射得到一个跟真实窗口G更接近的回归窗口G’，即：给定A=(Ax, Ay, Aw, Ah)，寻找一种映射f

最低0.47元/天解锁文章

淹死的儿有水吃

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
F-RCNN原理解释

1.anchors特征可以看做一个尺度5139的256通道图像，对于该图像的每一个位置，考虑9个可能的候选窗口：三种面积{128,256,512}×{128,256,512}×三种比例{1:1,1:2,2:1}{1:1,1:2,2:1}。这些候选窗口称为anchors。下图示出5139个anchor中心，以及9种anchor示例。{1282,2562,5122}×{1282,2562,5122}×三种比例{1:1,1:2,2:1}{1:1,1:2,2:1}。这些候选窗口称为anchors。下图示出5
复制链接

扫一扫