FasterRCNN学习笔记

FasterRCNN网络结构:

Faster RCNN可以分为4个主要内容

1、Conv layers。
特征提取网络Backbone。Faster RCNN首先使用一组基础conv+relu+pooling层提取image的feature maps。该feature maps被共享用于后续RPN层和全连接层。
2、Region Proposal Networks。
RPN网络用于生成proposals(建议框)。该层通过softmax判断anchors(先验框)属于foreground或者background,利用bounding box regression修正anchors获得精确的proposals。
3、RoI Pooling。
该层收集输入的feature maps和proposals,综合这些信息后提取proposal feature maps,送入后续Fast RCNN全连接层判定目标类别。
4、Classification。
利用proposal feature maps计算proposal的类别,同时再次bounding box regression获得检测框最终的精确位置。

1、Conv layers

在这里插入图片描述
对于一副任意大小PxQ的图像,首先缩放至固定大小MxN,然后将MxN图像送入网络;Conv layers中包含了13个conv层+13个relu层+4个pooling层;且:

  1. 所有的conv层都是:kernel_size=3,pad=1
  2. 所有的pooling层都是:kernel_size=2,stride=2

在整个Conv layers中,conv和relu层不改变输入输出大小,只有pooling层使输出长宽都变为输入的1/2。一个MxN大小的矩阵经过Conv layers固定变为(M/16)x(N/16)。这样Conv layers生成的featuure map中都可以和原图对应起来。以VGG16为例,假设输入图像的维度为3X600X800,由于VGG16下采样率为16,因此输出的feature map的维度为512X38X 50。

2、RPN模块

在这里插入图片描述在这里插入图片描述RPN 采用卷积特征图并在图像上生成proposal。

RPN网络: 生成较好的建议框proposal,这里用到了强先验的Anchor。
输入: feature map、 物体标签GT,即训练集中所有物体的类别与边框位置。
输出: Proposal、 分类Loss、 回归Loss, 其中,Proposal作为生成的区域,供后续模块分类与回归。两部分损失用作优化网络。

2.1、3x3卷积生成Anchor

评论 2
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值