faster rcnn中Roi pooling层的个人理解

最新推荐文章于 2024-09-12 23:40:25 发布

gbyy42299

最新推荐文章于 2024-09-12 23:40:25 发布

阅读量2.5w

点赞数 9

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gbyy42299/article/details/80352418

版权

每次看Faster rcnn的paper都能收获到不少东西，所以这个博客的目的就是为了记录自己看这篇paper的过程中的一些理解。

本文为自己根据大家的博客的内容摘取和自己的理解汇合完成：

Faster rcnn的整体构架：

训练的大致过程：

1、图片先缩放到MxN的尺寸，之后进入vgg16后得到（W/16，H/16）大小的feature map；

2、对于得到的大小为（W/16，H/16）的feature map上的每一个位置，都生成三种比例、三种（rotio、scale）尺度的anchors，Anchor即给出一个基准窗大小，按照倍数和长宽比例得到不同大小的窗。例如论文中基准窗大小为16，给了（8、16、32）三种倍数和（0.5、1、2）三种比例，这样能够得到一共9种尺度的anchor。

因此，在对60*40的map进行滑窗时，以中心像素为基点构造9种anchor映射到原来的1000*600图像中，映射比例为16倍。那么总共可以得到60*40*9大约2万个anchor；

3、每个anchor经过回归后对应到原图，然后再对应到feature map经过roi pooling后输出7*7的大小的map；

4、最后对这个7*7的map进行分类和回归。

Roi pooling层详解：

Roi pooling层也是pooling层的一种，只是是针对于Rois的pooling操作而已。

Roi pooling层的过程就是为了将proposal抠出来的过程，然后resize到统一的大小。

Roi pooling层的操作如下：

1、根据输入的image，将Roi映射到feature map对应的位置；

2、将映射后的区域划分为相同大小的sections（sections数量和输出的维度相同）；

3、对每个section进行max pooling操作；

（参考：https://blog.csdn.net/auto1993/article/details/78514071）

关注

9
点赞
踩
55

收藏

觉得还不错? 一键收藏
8
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 8

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。