[Faster R-CNN] Towards Real-Time Object Detection with Region Proposal Networks

emergency_rose

已于 2024-04-03 17:22:12 修改

阅读量168

点赞数

分类专栏： paper阅读笔记文章标签： r语言 cnn 笔记

于 2019-08-09 23:57:47 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_30618203/article/details/98940796

版权

paper阅读笔记专栏收录该内容

60 篇文章 0 订阅

订阅专栏

Overview

1、解决问题

region proposal 计算瓶颈（test time）

2、创新

1）提出Region Proposal Network（RPN），和detection网络共用卷积特征，使得提proposal过程cost-free

2）single，unified network

3、网络

input ---> RPN ---> rectangular object proposals ---> NMS ---> top-N ---> RCNN

技术细节

1、RPN

1）结构

全卷积FCN；attention（tell where to look）

2）组成

- n x n conv（n=3）

- 1 x 1 conv（bbox-regression，reg）+ 1 x 1 conv（bbox-classification，cls）

* sliding window方式，特征图上不同点的anchor共享参数，是“translation-invariant”的，且不容易overfitting

* 同一个window下的不同anchor不共享参数，cls和reg的卷积核数目为(2 + 4) * k，输出(2 + 4) * k个channel

3）输出

每个sliding window有k个位于中心的anchors（本文用3 scales和3 aspect ratios，k=9），则

k RoIs ---> 4k object bounds + 2k objectness scores (2-class softmax，也可以1-class logistic regression)

W x H的特征图，共有WHk个anchors

4）loss

每个anchor的cls label取决于与GT的IoU（正：max or >0.7；负：<0.3）；一个GT框可能对应多个anchor

其中， $L_{cls}$ 是log loss，（R为smooth L1）；仅对positive anchor计算reg loss（此时 $p_i^*$ 为1）。

* 本文中， $N_{cls}$ =256， $N_{reg}$ =2400， $\lambda$ =10。但实验表明，两个N不必要，结果对 $\lambda$ 的变化也不敏感

5）training

每张图随机选取256个anchor，使正负比 ≈ 1：1；如果正样本数<128，则用负样本填充

2、Scale invariance

1）pyramid of anchors：多个scales & aspect ratios

2）image & feature map & filters均为single scale

3、Training strategy

1）交替训练（本文选用的方法）

a）训练backbone+RPN

b）利用RPN提取的proposal，训练Fast R-CNN

c）用Fast R-CNN参数初始化RPN网络

d）循环

* 本文使用4步交替训练

a）（imagenet pretrain）训练RPN

b）（imagenet pretrain）用a的proposals，训练Fast R-CNN

c）（固定共享conv层的参数）训练RPN

d）（固定共享conv层的参数）训练Fast R-CNN

2）近似联合训练

RPN和Fast R-CNN一起训练，但roi pooling过程受到bbox reg影响，在这步并没有被算进loss进行梯度回传，所以是“近似的”

可以得到和1）相近的结果，且训练速度更快

3）非近似联合训练

需要RoI pooling过程是可导的，可以用RoI warping来解决

4、其他

1）3 scales: $128^2$ ， $256^2$ ， $512^2$ ，3 aspect ratio：1-1，1-2，2-1

2）网络可以预测比感受野更大的框（当物体部分可见时，仍能预测完整个体的框）

3）超过边界的anchor在训练时被忽略，否则网络难以收敛；测试时，考虑所有的anchor，最终对超过边界的预测框进行clip操作

4）训练Fast R-CNN时，根据RPN输出的bbox_pred和原anchor，可以得到proposal；然后根据cls_score进行NMS操作，IoU_thr=0.7，然后取top-k（实际中可能会小于k）。训练时选取top-2000，测试时选取top-300

归纳（conv共享情况）

1、RCNN：region proposal + multi-RoIs（相互不共享） + classification + bbox regression

2、fast-RCNN：region proposal + （multi-RoIs + classification + bbox）

3、faster-RCNN：（region proposal + multi-RoIs + classification + bbox）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。