日期:2024年07月27日
目录
2) Region Proposal Network (RPN)
边界框回归(Bounding-Box Regression)
非极大值抑制(Non-Maximum Suppression,NMS)
1.引言
1)简要介绍
Faster R-CNN是目标检测领域的关键进展,它通过引入Region Proposal Network (RPN) 显著提升了检测的效率和准确性。
2)论文摘要
最先进的目标检测网络依靠区域提出算法来假设目标的位置。SPPnet[1]和Fast R-CNN[2]等研究已经减少了这些检测网络的运行时间,使得区域提出计算成为一个瓶颈。在这项工作中,我们引入了一个区域提出网络(RPN),该网络与检测网络共享全图像的卷积特征,从而使近乎零成本的区域提出成为可能。RPN是一个全卷积网络,可以同时在每个位置预测目标边界和目标分数。RPN经过端到端的训练,可以生成高质量的区域提出,由Fast R-CNN用于检测。我们将RPN和Fast R-CNN通过共享卷积特征进一步合并为一个单一的网络——使用最近流行的具有“注意力”机制的神经网络术语,RPN组件告诉统一网络在哪里寻找。对于非常深的VGG-16模型[3],我们的检测系统在GPU上的帧率为5fps(包括所有步骤),同时在PASCAL VOC 2007,2012和MS COCO数据集上实现了最新的目标检测精度,每个图像只有300个提出。在ILSVRC和COCO 2015竞赛中,Faster R-CNN和RPN是多个比赛中获得第一名输入的基础。代码可公开获得。
2.方法概述
1)Faster R-CNN的基本架构
2) Region Proposal Network (RPN)
功能:RPN的主要功能就是生成候选区域,接收经过卷积神经网络的生成特征图,产生候选区域(Region Proposal),相比于RCNN 与 Fast R-CNN所采用的SS(Selective Search),效率得到了显著的提升。
工作原理:RPN通过滑动窗口机制遍历从卷积神经网络传来的特征图,在每一个位置生成9个anchors(分别为 Scales:128² px, 256² px, 512² px Aspect Ratios:1:1,1:2,2:1),对于每个锚框,RPN 输出一个对象性得分(objectness score)和相应的边界框回归(bounding box regression)。通过非极大值抑制(NMS),RPN 过滤掉重叠过大的候选区域,只保留最具代表性的区域。
边界框回归(Bounding-Box Regression)
边界框回归通过调整初步候选框的位置和尺寸,提高目标检测的精度,确保生成的边界框更准确地围绕目标物体。
红色的框 P 代表原始的Proposal, 绿色的框 G 代表目标的 Ground Truth, 我们的目标是寻找一种关系使得输入原始的窗口 P 经过映射得到一个跟真实窗口 G 更接近的回归窗口
下面是边界框回归的数学原理:
平移变换的计算公式如下:
尺度变换的计算公式如下:
非极大值抑制(Non-Maximum Suppression,NMS)
非极大值抑制(Non-Maximum Suppression,NMS)是一种图像处理的技术。它通常用于目标检测,其主要作用是去除检测出来的冗余框,只保留最有可能包含目标物体的框,保留最优的检测结果。
具体的实现方法包括以下几个步骤:
1.对于每个类别,按照预测框的置信度进行排序,将置信度最高的预测框作为基准。
2.从剩余的预测框中选择一个与基准框的重叠面积最大的框,如果其重叠面积大于一定的阈值,则将其删除。
3.对于剩余的预测框,重复步骤2,直到所有的重叠面积都小于阈值,或者没有被删除的框剩余为止。
3)RoI Pooling
RoI Pooling层接收两个输入:
1.经过RPN生成的候选框;
2.经过卷积神经网络生成的特征图;
RoI pooling具体操作如下:
1.根据输入image,将 ROI 映射到 feature map 对应位置
2.将映射后的区域划分为相同大小的 sections(sections数量与输出的维度相同)
3.对每个 sections 进行 max pooling 操作
3.总结
1)核心贡献
Faster-RCNN的主要贡献就是引入了RPN,使得候选区域的生成和物体检测能在同一个网络中实现,让实时监测成为可能
2)论文链接
Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks