Faster R-CNN 论文总结

日期:2024年07月27日

目录

1.引言

1)简要介绍

2)论文摘要

2.方法概述

1)Faster R-CNN的基本架构

2)  Region Proposal Network (RPN)

边界框回归(Bounding-Box Regression)

非极大值抑制(Non-Maximum Suppression,NMS)

3)RoI Pooling

3.总结

1)核心贡献

2)论文链接


1.引言

1)简要介绍

Faster R-CNN是目标检测领域的关键进展,它通过引入Region Proposal Network (RPN) 显著提升了检测的效率和准确性。

2)论文摘要

最先进的目标检测网络依靠区域提出算法来假设目标的位置。SPPnet[1]和Fast R-CNN[2]等研究已经减少了这些检测网络的运行时间,使得区域提出计算成为一个瓶颈。在这项工作中,我们引入了一个区域提出网络(RPN),该网络与检测网络共享全图像的卷积特征,从而使近乎零成本的区域提出成为可能。RPN是一个全卷积网络,可以同时在每个位置预测目标边界和目标分数。RPN经过端到端的训练,可以生成高质量的区域提出,由Fast R-CNN用于检测。我们将RPN和Fast R-CNN通过共享卷积特征进一步合并为一个单一的网络——使用最近流行的具有“注意力”机制的神经网络术语,RPN组件告诉统一网络在哪里寻找。对于非常深的VGG-16模型[3],我们的检测系统在GPU上的帧率为5fps(包括所有步骤),同时在PASCAL VOC 2007,2012和MS COCO数据集上实现了最新的目标检测精度,每个图像只有300个提出。在ILSVRC和COCO 2015竞赛中,Faster R-CNN和RPN是多个比赛中获得第一名输入的基础。代码可公开获得。

2.方法概述

1)Faster R-CNN的基本架构

2)  Region Proposal Network (RPN)

功能:RPN的主要功能就是生成候选区域,接收经过卷积神经网络的生成特征图,产生候选区域(Region Proposal),相比于RCNN 与 Fast R-CNN所采用的SS(Selective Search),效率得到了显著的提升。

工作原理:RPN通过滑动窗口机制遍历从卷积神经网络传来的特征图,在每一个位置生成9个anchors(分别为 Scales:128² px, 256² px, 512² px  Aspect Ratios:1:1,1:2,2:1),对于每个锚框,RPN 输出一个对象性得分(objectness score)和相应的边界框回归(bounding box regression)。通过非极大值抑制(NMS),RPN 过滤掉重叠过大的候选区域,只保留最具代表性的区域。

边界框回归(Bounding-Box Regression)

边界框回归通过调整初步候选框的位置和尺寸,提高目标检测的精度,确保生成的边界框更准确地围绕目标物体。

红色的框 P 代表原始的Proposal, 绿色的框 G 代表目标的 Ground Truth, 我们的目标是寻找一种关系使得输入原始的窗口 P 经过映射得到一个跟真实窗口 G 更接近的回归窗口 

下面是边界框回归的数学原理:

平移变换的计算公式如下:

尺度变换的计算公式如下:

非极大值抑制(Non-Maximum Suppression,NMS)

非极大值抑制(Non-Maximum Suppression,NMS)是一种图像处理的技术。它通常用于目标检测,其主要作用是去除检测出来的冗余框,只保留最有可能包含目标物体的框,保留最优的检测结果。

具体的实现方法包括以下几个步骤:

1.对于每个类别,按照预测框的置信度进行排序,将置信度最高的预测框作为基准。

2.从剩余的预测框中选择一个与基准框的重叠面积最大的框,如果其重叠面积大于一定的阈值,则将其删除。

3.对于剩余的预测框,重复步骤2,直到所有的重叠面积都小于阈值,或者没有被删除的框剩余为止。

3)RoI Pooling

RoI Pooling层接收两个输入:

1.经过RPN生成的候选框;

2.经过卷积神经网络生成的特征图;

 RoI pooling具体操作如下:

1.根据输入image,将 ROI 映射到 feature map 对应位置

2.将映射后的区域划分为相同大小的 sections(sections数量与输出的维度相同)

3.对每个 sections 进行 max pooling 操作

3.总结

1)核心贡献

Faster-RCNN的主要贡献就是引入了RPN,使得候选区域的生成和物体检测能在同一个网络中实现,让实时监测成为可能

2)论文链接

Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

https://arxiv.org/abs/1504.08083

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值