FasterRCNN学习笔记

最新推荐文章于 2022-08-30 11:08:07 发布

原创

最新推荐文章于 2022-08-30 11:08:07 发布 · 1.8k 阅读

22 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #神经网络

文章目录

Faster RCNN可以分为4个主要内容
1、Conv layers
2、RPN模块
3、RoI pooling
4、Fast RCNN
训练损失有：
- - 参考（感谢）

FasterRCNN网络结构：

Faster RCNN可以分为4个主要内容

1、Conv layers。
特征提取网络Backbone。Faster RCNN首先使用一组基础conv+relu+pooling层提取image的feature maps。该feature maps被共享用于后续RPN层和全连接层。
2、Region Proposal Networks。
RPN网络用于生成proposals（建议框）。该层通过softmax判断anchors（先验框）属于foreground或者background，利用bounding box regression修正anchors获得精确的proposals。
3、RoI Pooling。
该层收集输入的feature maps和proposals，综合这些信息后提取proposal feature maps，送入后续Fast RCNN全连接层判定目标类别。
4、Classification。
利用proposal feature maps计算proposal的类别，同时再次bounding box regression获得检测框最终的精确位置。

1、Conv layers

在这里插入图片描述
对于一副任意大小PxQ的图像，首先缩放至固定大小MxN，然后将MxN图像送入网络；Conv layers中包含了13个conv层+13个relu层+4个pooling层；且：

所有的conv层都是：kernel_size=3，pad=1
所有的pooling层都是：kernel_size=2，stride=2

在整个Conv layers中，conv和relu层不改变输入输出大小，只有pooling层使输出长宽都变为输入的1/2。一个MxN大小的矩阵经过Conv layers固定变为(M/16)x(N/16)。这样Conv layers生成的featuure map中都可以和原图对应起来。以VGG16为例，假设输入图像的维度为3X600X800，由于VGG16下采样率为16，因此输出的feature map的维度为512X38X 50。

2、RPN模块

在这里插入图片描述 RPN 采用卷积特征图并在图像上生成proposal。

RPN网络: 生成较好的建议框proposal，这里用到了强先验的Anchor。
输入: feature map、物体标签GT，即训练集中所有物体的类别与边框位置。
输出: Proposal、分类Loss、回归Loss, 其中，Proposal作为生成的区域，供后续模块分类与回归。两部分损失用作优化网络。