faster rcnn

  1. Anchor:特征图中的点对应于原图中的点,原图中的点称为anchor
  2. Faster rcnn的流程

首先原图大小为P*Q,经过reshape之后得到M*N大小的输入图像(问题1)。然后经过feature extraction提取网络(VGG16),提取特征(上图中的feature map)。然后来到了RPN(region proposal network),该网络的作用是提取区域,首先经过两个3*3卷积网络,之后在经过1*1卷积可以分别输出W*H*18和W*H*36的特征图(为什么是这样大小的feature map),两者组合便得到了proposal(候选框),然后从中筛选出一些候选框输入到ROIpooling中,输出固定大小的feature map,然后再经过全连接网络进行候选框分类及再次回归候选框位置(精确定位)。

Questions 1:为什么要统一输入图像大小为M*N,明明ROIpooling层就可以调整任意输入尺寸在固定输出尺寸大小?

Answer:因为训练网络时使用的是min-batch的方法,一个batch内的图像可能大小不一样,而不同大小的输入拼成batch在实现时代码较为复杂,所以就先reshape到同一尺寸了。

Question2:为什么RPN层有并联结构?

Answer:上面的网络进行的是分类操作,并联结构的另一分支进行的是候选框位置的回归操作

Question3:为什么并联分支1输出的channel为18,分支2输出的channel为36?

Answer:首先是候选框的问题,此时特征图中的每一点对应于原图中的点的位置坐标是已知的,在原图中对应的点为中心,生成9个proposal(3个纵横比和3个不同尺度组成9个候选框),假设此时feature map大小为W*H,每一个点有9个候选框,那么一共有W*H*9个候选框。并联分支1是判断这么多个候选框中是否包含了object(二分类),所以输出channel是2*9,而并联分支2是9个候选框位置的回归,每一个候选框有四个参数(center_x,center_y,w,h),所以输出channel是36.

Question4:PRN如何进行分类和回归的?

Answer:根据一定的方式定义正负样本(如与ground truth box有最大的IOU的anchors作为正样本,与ground truth box的IOU小于0.3的作为负样本),训练RPN的loss是:

L(p_{i},t_{i})=\frac{1}{N_{cls}}\sum _{i}L_{cls}(p_{i},p_{i}^{*})+\lambda \frac{1}{N_{reg}}\sum _{i}p_{i}^{*}L_{reg}(t_{i},t_{i}^{*})

I表示第i个anchor,pi表示第i个anchor是前景的概率,当第i个anchor是前景时,p_{i}^{*}为1,然后就可以回归此时anchor的位置信息了,ti是预测的anchor位置,t^{_{i}^{*}}是ground truth的候选框信息。

Quesion5:ROIpooling的作用

Answer:将不同大小的候选框调整到相同大小

Question6:classification and regression的作用

Classification模块的作用是对候选框分类(比RPN中更复杂的分类。类别更多),regression:候选框位置的再次回归

参考:https://zhuanlan.zhihu.com/p/31426458

https://blog.csdn.net/liuxiaoheng1992/article/details/81843363?biz_id=102&utm_term=Faster%20RCNN&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduweb~default-2-81843363&spm=1018.2118.3001.4449

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值