Faster R-CNN

(研一新生读论文入门,简要记录)
论文名称:Faster R-CNN: T owards Real-Time Object
Detection with Region Proposal Networks
论文地址:https://arxiv.org/abs/1506.01497
发布期刊:Neural Information Processing Systems (NIPS)machine learning 顶级会议-2015
参考:https://zhuanlan.zhihu.com/p/32404424
内容:
背景介绍:Faster R-CNN主要用于目标检测,还被应用到更多的领域中, 比如人体关键点检测、目标追踪、 实例分割还有图像描述等。在这里插入图片描述
从编程角度来说, Faster R-CNN主要分为四部分(图中四个绿色框):
Dataset:数据,提供符合要求的数据格式(目前常用数据集是VOC和COCO)
Extractor: 利用CNN提取图片特征features(原始论文用的是ZF和VGG16,后来人们又用ResNet101)
RPN(Region Proposal Network): 负责提供候选区域rois(每张图给出大概2000个候选框)
RoIHead: 负责对rois分类和微调。对RPN找出的rois,判断它是否包含目标,并修正框的位置和座标
Faster R-CNN整体的流程可以分为三步:
提特征: 图片(img)经过预训练的网络(Extractor),提取到了图片的特征(feature)
Region Proposal: 利用提取的特征(feature),经过RPN网络,找出一定数量的rois(region of interests)。
分类与回归:将rois和图像特征features,输入到RoIHead,对这些rois进行分类,判断都属于什么类别,同时对这些rois的位置进行微调。
方法:
RPN 经过端到端的训练,可以生成高质量的区域提议,由Fast R-CNN用于检测,RPN与Faster R-CNN共享全图像的卷积特征。在微调区域提议任务和微调目标检测之间进行交替,同时保持区域提议的固定。
相关工作:
1.区域提议
2.目标检测的深度网络:OverFeat(一个全连接层检测单个目标,全连接层换为卷积层检测多个目标)MultiBox(网络中能生成区域提议,最后全连接层同时预测多个类别不相关的边界框)
3.Faster R-CNN:RPN+Fast R-CNN(注意力机制)
(1)区域提议网络:在卷积特征映射上以较小滑动窗口得到两个子连接层:边界框回归层、边界框分类层
①锚:每个位置可能提议的最大数目表示,位于所讨论的滑动窗口中心(平移不变的锚点,多尺度锚点作为回归参考)
在这里插入图片描述
②损失函数:
在这里插入图片描述
锚点位正,真实标签 pi* 为1,如果锚点位负,则为0。分类损失 Lcls 是两个类别上(目标或不是目标)的对数损失;回归损失Lreg仅对正锚点激活,否则被禁用( pi=0)
在这里插入图片描述
x, y, w和 h 表示边界框的中心坐标及其宽和高,变量 x, xa和 x* 分别表示预测边界框,锚盒和实际边界框(类似于 y, w, h)。这可以被认为是从锚盒到邻近的实际边界框的回归。
③训练RPN:RPN 可以通过反向传播和随机梯度下降(SGD)进行端到端训练
(2)RPN 和 Fast R-CNN 共享特征:四步交替训练
①训练RPN。该网络使用 ImageNet的预训练模型进行初始化,并针对区域提议任务进行了端到端的微调。
②使用由第一步RPN生成的提议,由Fast R-CNN训练单独的检测网络。该检测网络也由ImageNet的预训练模型进行初始化。此时两个网络不共享卷积层。
③使用检测器网络来初始化RPN训练, 修正共享的卷积层,并且只对RPN特有的层进行微调。现在这两个网络共享卷积层。
④保持共享卷积层的固定,我们对Fast R-CNN的独有层进行微调。因此,两个网络共享相同的卷积层形成统一的网络。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值