【目标检测】Faster RCNN算法详解

最新推荐文章于 2024-07-06 13:49:03 发布

shenxiaolu1984

最新推荐文章于 2024-07-06 13:49:03 发布

阅读量10w+

点赞数 129

分类专栏：论文解读文章标签：深度学习 deep-learn 目标检测 detection RCNN

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shenxiaolu1984/article/details/51152614

版权

Ren, Shaoqing, et al. “Faster R-CNN: Towards real-time object detection with region proposal networks.” Advances in Neural Information Processing Systems. 2015.

本文是继RCNN[¹]，fast RCNN[²]之后，目标检测界的领军人物Ross Girshick团队在2015年的又一力作。简单网络目标检测速度达到17fps，在PASCAL VOC上准确率为59.9%；复杂网络达到5fps，准确率78.8%。

作者在github上给出了基于matlab和python的源码。对Region CNN算法不了解的同学，请先参看这两篇文章：《RCNN算法详解》，《fast RCNN算法详解》。

思想

从RCNN到fast RCNN，再到本文的faster RCNN，目标检测的四个基本步骤（候选区域生成，特征提取，分类，位置精修）终于被统一到一个深度网络框架之内。所有计算没有重复，完全在GPU中完成，大大提高了运行速度。
这里写图片描述

faster RCNN可以简单地看做“区域生成网络+fast RCNN“的系统，用区域生成网络代替fast RCNN中的Selective Search方法。本篇论文着重解决了这个系统中的三个问题：

如何设计区域生成网络
如何训练区域生成网络
如何让区域生成网络和fast RCNN网络共享特征提取网络

区域生成网络：结构

基本设想是：在提取好的特征图上，对所有可能的候选框进行判别。由于后续还有位置精修步骤，所以候选框实际比较稀疏。
这里写图片描述

特征提取

原始特征提取（上图灰色方框）包含若干层conv+relu，直接套用ImageNet上常见的分类网络即可。本文试验了两种网络：5层的ZF[³]，16层的VGG-16[[^-4]]，具体结构不再赘述。
额外添加一个conv+relu层，输出5139256维特征（feature）。

候选区域（anchor）

特征可以看做一个尺度5139的256通道图像，对于该图像的每一个位置，考虑9个可能的候选窗口：三种面积 $\{128^2, 256^2, 512^2 \}\times$

最低0.47元/天解锁文章

关注

129
点赞
踩
1032

收藏

觉得还不错? 一键收藏
35
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 35

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。