FasterRCNN之整体框架详解

最新推荐文章于 2024-08-22 15:49:06 发布

littlehaes

最新推荐文章于 2024-08-22 15:49:06 发布

阅读量1w

点赞数 15

分类专栏：深度学习文章标签： Faster RCNN

本文链接：https://blog.csdn.net/littlehaes/article/details/83344007

版权

本文详细介绍了Faster RCNN的整体框架，包括使用VGG16获取图片特征，RPN网络产生proposals，RoI Pooling层提取综合特征，以及最后的框回归和物体分类。通过理解这个四部分流程，可以深入掌握Faster RCNN的工作原理。

摘要由CSDN通过智能技术生成

欢迎访问我的个人主页
刚接触物体检测领域,学习了Faster RCNN的论文及Tensorflow版本的源码,不得不说,读源码真的过瘾…不过确实能够帮助理解框架,下面按照Faster RCNN的预测过程介绍其整体流程

整体框架

Faster RCNN整体框架包括4部分:
一. 使用VGG16或者其他成熟的图片分类模型提取图片特征(feature map)
二. 将图片特征喂入RPN(Region Proposal Network)网络得到proposals (包含第一次回归)
三. 将上两步的结果:图片特征和 proposals 喂入RoI Pooling层得到综合的proposals特征
四. 根据poposals特征预测物体的bounding box和物体的类别 (包含第二次回归)

对应下图: 图中conv(3,3,512,1,1)对应conv(filter_height,filter_width,output_channels,stride_height,stride_width)
在这里插入图片描述

接下来分别介绍这四部分对应的网络结构,以预测过程为例(训练过程涉及ground truth的构建,会在之后的博客中具体介绍)

一.获取图片特征

在这里插入图片描述
使用预训练好的VGG16提取图片特征,如下图所示,喂入的图片(也就是’data’)并没有经过VGG16所有的流程,而是在得到’conv5_3’这个结果后就停下了,'conv5_3’就是Faster RCNN需要的图片特征(feature map)
注意:'conv5_3’的h,w是输入图片’data’的1/1