关于Faster RCNN的几点理解

最新推荐文章于 2024-06-16 19:42:47 发布

隋边边

最新推荐文章于 2024-06-16 19:42:47 发布

阅读量454

点赞数

分类专栏：卷积神经网络文章标签： Fast RCNN 目标识别

本文链接：https://blog.csdn.net/Setul/article/details/88949490

版权

卷积神经网络专栏收录该内容

6 篇文章 0 订阅

订阅专栏

1. RPN（Region proposal network）是一个全连接神经网络

在这里插入图片描述
上图是faster RCNN的完整的结构，在通过前面的特征提取网络之后，RPN将使用其最后一层特征图，从中提取proposal region，RPN本质上就是一个全连接层。RPN首先是个滑窗结构的，如下图是其中的一个窗口的实例，窗口大小是3 X 3。假设RPN的输入特征图有32个channel。则采用的filter将是3 x 3 x 32 x 256，得到一个1 x 1 x 256的中间层，然后分别使用 1 x 1 x 256 x 2k进行分类和 1 x 1 x 256 x 4k进行回归得到bouding box。k是anchor的数目。
在这里插入图片描述

2. anchor在原图中的映射

映射与感受野之间的关系要搞清楚。
首先是感受野（reception field），其计算不在此赘述，在论文中讲了，3 x 3的滑窗对于原始图像的感受野是171 pixels（ZF net）/228 pixels（VGG net）。
而映射，因为只用到了卷积和池化层，所以特征图的最终维度与原始图片是呈比例的。数学上，如果图片的尺寸是 w×h，那么特征图最终会缩小到尺寸为 w/r 和 h/r，其中 r 是次级采样率。如果我们在特征图上每个空间位置上都定义一个锚点，那么最终图片的锚点会相隔 r 个像素，在 VGG 中，r=16。
在这里插入图片描述
上图即各锚点中心在原始输入图上的映射。

3. 锚点的训练标签

锚点训练标签的设定是根据锚点与对象实际边界(Goud truth bounding box)的IoU大小来划定的。

如果Anchor对应的reference box与ground truth的IoU值最大，标记为正样本；
如果Anchor对应的reference box与任意一个对象的ground truth的IoU>0.7，标记为正样本。事实上，采用该规则基本上可以找到足够的正样本，但是对于一些极端情况，例如所有的Anchor对应的reference box与groud truth的IoU不大于0.7，可以采用第一种规则生成。
负样本标定规则：如果Anchor对应的reference box与ground truth的IoU<0.3，标记为负样本。
只有这些正样本和负样本参与训练，其他的不参与训练。
一个对象可能会使多个anchor的标签为正标签。

4. anchor的大小大于感受野，为什么还能预测

全卷积神经网络的最后一层感受野只有171（ZF网络）和228（VGG16）可是作者设定的anchor大小却有265×256和512×512（Table1），神经元如何能对它完全看不见的像素区域做有效预测？

作者在文章中给出了说明：

We note that our algorithm allows predictions that are larger than the underlying receptive field.Such predictions are not impossible—one may still roughly infer the extent of an object if only the middle of the object is visible.

只看到物体的一部分来预测物体的整体大小也不是不可能的。

5. 参考：

隋边边

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
关于Faster RCNN的几点理解

1. RPN（Region proposal network）是一个全连接神经网络上图是faster RCNN的完整的结构，在通过前面的特征提取网络之后，RPN将使用其最后一层特征图，从中提取proposal region，RPN本质上就是一个全连接层。RPN首先是个滑窗结构的，如下图是其中的一个窗口的实例，窗口大小是3 X 3。假设RPN的输入特征图有32个channel。则采用的filte...
复制链接

扫一扫

专栏目录