[Faster R-CNN] Towards Real-Time Object Detection with Region Proposal Networks

Overview

1、解决问题

    region proposal 计算瓶颈(test time)

2、创新

    1)提出Region Proposal Network(RPN),和detection网络共用卷积特征,使得提proposal过程cost-free

    2)single,unified network

3、网络

input ---> RPN ---> rectangular object proposals ---> NMS ---> top-N ---> RCNN

技术细节

 1、RPN

    1)结构

        全卷积FCN;attention(tell where to look)   

    2)组成

        - n x n conv(n=3)

        - 1 x 1 conv(bbox-regression,reg)+ 1 x 1 conv(bbox-classification,cls)

        * sliding window方式,特征图上不同点的anchor共享参数,是“translation-invariant”的,且不容易overfitting

        * 同一个window下的不同anchor不共享参数,cls和reg的卷积核数目为(2 + 4) * k,输出(2 + 4) * k个channel 

    3)输出

        每个sliding window有k个位于中心的anchors(本文用3 scales和3 aspect ratios,k=9),则

        k RoIs ---> 4k object bounds + 2k objectness scores (2-class softmax,也可以1-class logistic regression)

        W x H的特征图,共有WHk个anchors

    4)loss

        每个anchor的cls label取决于与GT的IoU(:max or >0.7;:<0.3);一个GT框可能对应多个anchor

    

        其中,L_{cls}是log loss,(R为smooth L1);仅对positive anchor计算reg loss(此时p_i^*为1)。

        * 本文中,N_{cls}=256,N_{reg}=2400,\lambda=10。但实验表明,两个N不必要,结果对\lambda的变化也不敏感

    5)training

        每张图随机选取256个anchor,使正负比 ≈ 1:1;如果正样本数<128,则用负样本填充

2、Scale invariance

    1)pyramid of anchors:多个scales & aspect ratios

    2)image & feature map & filters均为single scale

3、Training strategy

    1)交替训练(本文选用的方法)

        a)训练backbone+RPN

        b)利用RPN提取的proposal,训练Fast R-CNN

        c)用Fast R-CNN参数初始化RPN网络

        d)循环

        * 本文使用4步交替训练

        a)(imagenet pretrain)训练RPN

        b)(imagenet pretrain)用a的proposals,训练Fast R-CNN

        c)(固定共享conv层的参数)训练RPN

        d)(固定共享conv层的参数)训练Fast R-CNN

    2)近似联合训练

        RPN和Fast R-CNN一起训练,但roi pooling过程受到bbox reg影响,在这步并没有被算进loss进行梯度回传,所以是“近似的”

        可以得到和1)相近的结果,且训练速度更快

    3)非近似联合训练

        需要RoI pooling过程是可导的,可以用RoI warping来解决

4、其他

    1)3 scales: 128^2256^2512^2,3 aspect ratio:1-1,1-2,2-1

    2)网络可以预测比感受野更大的框(当物体部分可见时,仍能预测完整个体的框)

    3)超过边界的anchor在训练时被忽略,否则网络难以收敛;测试时,考虑所有的anchor,最终对超过边界的预测框进行clip操作

    4)训练Fast R-CNN时,根据RPN输出的bbox_pred和原anchor,可以得到proposal;然后根据cls_score进行NMS操作,IoU_thr=0.7,然后取top-k(实际中可能会小于k)。训练时选取top-2000,测试时选取top-300

归纳(conv共享情况)

1、RCNN:region proposal + multi-RoIs(相互不共享) + classification + bbox regression

2、fast-RCNN:region proposal + multi-RoIs + classification + bbox

3、faster-RCNN:region proposal + multi-RoIs + classification + bbox

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值