目标检测--Faster RCNN算法架构及关键点解析

最新推荐文章于 2025-03-16 13:08:28 发布

在路上DI蜗牛

最新推荐文章于 2025-03-16 13:08:28 发布

阅读量2.1k

点赞数 1

本文链接：https://blog.csdn.net/qinghuaci666/article/details/80758475

版权

Faster RCNN是目标检测领域的重要算法，它结合区域建议网络RPN，实现了端到端的检测。RPN利用CNN特征图生成region proposals，取代了Selective Search等方法，提升了速度。网络结构包括共享卷积层、RPN和Fast R-CNN部分，RPN通过多尺度Anchors预测目标位置和得分。训练过程中采用4-Step Alternating Training，确保RPN和Fast R-CNN共享卷积层。实验结果显示，Faster RCNN在PASCAL VOC上准确率达到59.9%，且检测速度快。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Fast-RCNN基本实现端对端（除了proposal阶段外），下一步自然就是要把proposal阶段也用CNN实现（放到GPU上）。这就出现了Faster-RCNN，一个完全end-to-end的CNN对象检测模型。

本文是继RCNN，fast RCNN之后，目标检测界的领军人物Ross Girshick团队在2015年的又一力作。简单网络目标检测速度达到17fps，在PASCAL VOC上准确率为59.9%；复杂网络达到5fps，准确率78.8%。

作者在github上给出了基于matlab和python的源码。

本文参考网络博客及论文资料(详见：参考)对Faster RCNN算法架构进行梳理，并对其中的关键点进行解析，留作笔记并拿来共享。

1.基本思想、算法架构及其创新点

基本思想：

网络中的各个卷积层特征（feature map）也可以用来预测类别相关的region proposal（不需要事先执行诸如selective search之类的算法），但是如果简单的在前面增加一个专门提取proposal的网络又显得不够优雅，所以最终把region proposal提取和Fast-RCNN部分融合进了一个网络模型 (区域生成网络 RPN层)，虽然训练阶段仍然要分多步，但是检测阶段非常方便快捷，准确率也与原来的Fast-RCNN相差不多，从此，再也不用担心region proposal提取耗时比实际对象检测还多这种尴尬场景了。

(faster RCNN可以大致看做“区域生成网络RPN+fast RCNN”的系统，用区域生成网络代替fast RCNN中的Selective Search方法)

注意：上图Fast R-CNN中含特有卷积层，不是所有卷积层都参与共享。

首先向CNN网络【ZF或VGG-16】输入任意大小图片；
经过CNN网络前向传播至最后共享的卷积层，一方面得到供RPN网络输入的特征图，另一方面继续前向传播至特有卷积层，产生更高维特征图；
供RPN网络输入的特征图经过RPN网络得到区域建议和区域得分，并对区域得分采用非极大值抑制【阈值为0.7】，输出其Top-N【文中为300】得分的区域建议给RoI池化层；
第2步得到的高维特征图和第3步输出的区域建议同时输入RoI池化层，提取对应区域建议的特征；
第4步得到的区域建议特征通过全连接层后，输出该区域的分类得分以及回归后的bounding-box。

从RCNN到fast RCNN，再到本文的faster RCNN，目标检测的四个基本步骤（候选区域生成，特征提取，分类，位置精修）终于被统一到一个深度网络框架之内。所有计算没有重复，完全在GPU中完成，大大提高了运行速度。

算法架构：

创新点：

设计Region Proposal Networks【RPN】，利用CNN卷积操作后的特征图生成region proposals，代替了Selective Search、EdgeBoxes等方法，速度上提升明显；
训练Region Proposal Networks与检测网络【Fast R-CNN】共享卷积层，大幅提高网络的检测速度。

关键点：区域建议网络（Region Proposal Network, RPN）

RPN和检测网络共享全图的卷积特征，使得计算区域建议框几乎不花时间（例如每个图像10ms）。

RPN是一个全卷积网络，在每个位置同时预测目标边界和objectness得分。
RPN是端到端训练的，生成高质量区域建议框，用于Fast R-CNN来检测。
通过一种简单的交替运行优化方法，RPN和Fast R-CNN可以在训练时共享卷积特征。

2.区域推荐网络RPN

2.1RPN结构

单个RPN网络结构如下图：

注意：上图中卷积层/全连接层表示卷积层或者全连接层，作者在论文中表示这两层实际上是全连接层，但是网络在所有滑窗位置共享全连接层，可以很自然地用n×n卷积核【论文中设计为3×3】跟随两个并行的1×1卷积核实现。

如何训练出一个网络来替代selective search相类似的功能呢？论文借鉴SPP和ROI中的思想在feature map中提取proposal。先通过对应关系把feature map的点映射回原图，在每一个对应的原图设计不同的固定尺度窗口（bbox），根据该窗口与ground truth的IOU给它正负标签，让它学习里面是否有object，这样就训练一个网络（Region Proposal Network）。

由于我们只需要找出大致的地方，无论是精确定位位置还是尺寸，后面的工作都可以完成，作者对bbox做了三个固定：固定尺度变化（三种尺度），固定scale ratio变化（三种ratio），固定采样方式（只在feature map的每个点在原图中的对应ROI上采样，反正后面的工作能进行调整）。如此就可以降低任务复杂度。
原始特征提取（下图灰色方框）包含若干层conv+relu，直接套用ImageNet上常见的分类网络即可。本文试验了两种网络：5层的ZF，16层的VGG-16，具体结构不再赘述。

最低0.47元/天解锁文章