关于Faster RCNN的几点理解

1. RPN(Region proposal network)是一个全连接神经网络

在这里插入图片描述
上图是faster RCNN的完整的结构,在通过前面的特征提取网络之后,RPN将使用其最后一层特征图,从中提取proposal region,RPN本质上就是一个全连接层。RPN首先是个滑窗结构的,如下图是其中的一个窗口的实例,窗口大小是3 X 3。假设RPN的输入特征图有32个channel。则采用的filter将是3 x 3 x 32 x 256,得到一个1 x 1 x 256的中间层,然后分别使用 1 x 1 x 256 x 2k进行分类和 1 x 1 x 256 x 4k进行回归得到bouding box。k是anchor的数目。
在这里插入图片描述

2. anchor在原图中的映射

映射与感受野之间的关系要搞清楚。
首先是感受野(reception field),其计算不在此赘述,在论文中讲了,3 x 3的滑窗对于原始图像的感受野是171 pixels(ZF net)/228 pixels(VGG net)。
而映射,因为只用到了卷积和池化层,所以特征图的最终维度与原始图片是呈比例的。数学上,如果图片的尺寸是 w×h,那么特征图最终会缩小到尺寸为 w/r 和 h/r,其中 r 是次级采样率。如果我们在特征图上每个空间位置上都定义一个锚点,那么最终图片的锚点会相隔 r 个像素,在 VGG 中,r=16。
在这里插入图片描述
上图即各锚点中心在原始输入图上的映射。

3. 锚点的训练标签

锚点训练标签的设定是根据锚点与对象实际边界(Goud truth bounding box)的IoU大小来划定的。

  • 如果Anchor对应的reference box与ground truth的IoU值最大,标记为正样本;
  • 如果Anchor对应的reference box与任意一个对象的ground truth的IoU>0.7,标记为正样本。事实上,采用该规则基本上可以找到足够的正样本,但是对于一些极端情况,例如所有的Anchor对应的reference box与groud truth的IoU不大于0.7,可以采用第一种规则生成。
  • 负样本标定规则:如果Anchor对应的reference box与ground truth的IoU<0.3,标记为负样本。
  • 只有这些正样本和负样本参与训练,其他的不参与训练。
  • 一个对象可能会使多个anchor的标签为正标签。
4. anchor的大小大于感受野,为什么还能预测

全卷积神经网络的最后一层感受野只有171(ZF网络)和228(VGG16)可是作者设定的anchor大小却有265×256和512×512(Table1),神经元如何能对它完全看不见的像素区域做有效预测?

作者在文章中给出了说明:

We note that our algorithm allows predictions that are larger than the underlying receptive field.Such predictions are not impossible—one may still roughly infer the extent of an object if only the middle of the object is visible.

只看到物体的一部分来预测物体的整体大小也不是不可能的。

5. 参考:
  1. https://blog.csdn.net/weixin_31866177/article/details/81146722
  2. https://mp.weixin.qq.com/s/M_i38L2brq69BYzmaPeJ9w
  3. https://www.zhihu.com/question/283178412/answer/430875942
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值