Light-Head R-CNN 阅读笔记

最新推荐文章于 2020-12-09 10:09:04 发布

Zealoe

最新推荐文章于 2020-12-09 10:09:04 发布

阅读量5.7k

点赞数 3

文章标签： object detection 阅读笔记 r-cnn

本文链接：https://blog.csdn.net/Zealoe/article/details/78606116

版权

引言部分：

目前的 object detection 基本基于两种框架，一种是 two-stage 的，是R-CNN一系列的方法；另一种是 one-stage 的，比如YOLO，SSD。虽然 two-stage 的方法比one-stage的方法更准确，但速度慢。作者认为 two-stage 速度慢的原因，two-stage 的方法在本身的一个基础网络上都会附加计算量很大的一个用于 classification+regression 的网络，导致速度变慢。因此，作者为了解决 detection 的速度问题，提出了一种新的 two-stage detector，就是Light-Head R-CNN。速度和准确率都有提升。

Light-Head R-CNN 重点是 head 的结构设计。包括两部分： R-CNN subnet（ROI pooling 之后的network）和ROI warping。

方法部分：

首先看R-CNN subnet（图中虚线框出来的部分）的设计。这里作者和两个经典网络Faster rcnn（称A）、R-FCN（B）进行了对比，如下图。作者从accuracy 和 speed 两方面进行阐述，说明另两个优缺点。accuracy：A在FC层前，为了减小之后FC的计算量，使用了pooling，但这会对空间位置信息造成伤害；B也在prediction前直接用了pooling。而在speed方面，A 每一个ROI都是独立的经过一个subnet得到结果，会降低整个网络的速度，尤其proposal多的话，影响会更大；B 虽然采用cost-free R-CNN subnet，但是之前需要得到一个非常大的score map。而作者提出的Light-Head R-CNN 只有一个FC层，用作者的话说 makes a good trade-off between the performance and computational speed。

其中有一个问题：这个图上标的R-FCN的channel数有歧义。在图中P^2应该是9，channel数应该是729。图中所标注的3969应该是p=7，是因为作者之后做实验都是用的p=7，但这个图上画的是p=3的样子。这是在arkiv上放的，作者应该会出version2修正下这个图。

在ROI warping 方面，作者又实验发现，在channel数少的feature maps上做ROI pooling，不仅准确率提高，还会节约内存及计算量资源。一举两得。

整体结构：

作者的实验是基于两种setting的，setting “L” ：用 Resnet 101 做基础的feature extractor 网络，证明作者算法的performance ； setting "S"：用一个类似 Xception的小网络做基础网络，网络结构见下表。这个表里的stage 和 rep我没懂。。。

作者在base model 的最后一个卷积层用 large separable convolution layers获得 channel数少的feature map。结构如下。k在论文方法里设置为15，Cmid在setting L时是256，在setting S时是64，Cout为10*p*p（比R-FCN用的#classes*p*p 小很多）。k很大，感受野增大，因此feature maps效果更好。

R-CNN subnet 和 RPN 的实现细节并不是重点，就不再叙述。

实验部分：

作者的实验是在COCO上做的，有80种物体类别。

为了研究channel 数少的feature map 对ROI warping的影响，作者采用R-FCN作为 baseline，并且还对baseline 进行了少许改进，这里就不赘述，可以看论文的4.2.1。之后在baseline的基础上进行了如下变化：（1）将feature map channels 从 3969 (81 × 7 × 7) 改为 490 (10 × 7 × 7)；（2）因为channel数少了，并不能直接voting得到最终的结果，所以最后加了fc进行prediction。结构如下图。