多尺度R-CNN(2): Inside-Outside Net: Detecting Objects in Context with Skip Pooling and Recurrent Neural

最新推荐文章于 2023-03-24 16:09:24 发布

Solomon1588

最新推荐文章于 2023-03-24 16:09:24 发布

阅读量5.3k

点赞数 3

分类专栏：深度学习物体检测文章标签： Detection 物体检测多尺度 RNN

本文链接：https://blog.csdn.net/Solomon1558/article/details/72824370

版权

深度学习同时被 2 个专栏收录

33 篇文章 11 订阅

订阅专栏

物体检测

21 篇文章 2 订阅

订阅专栏

CNN高层特征具有丰富的语义信息，低层特征具有较高空间分辨率，研究如何融合不同层之间的特征，是物体检测领域热门的方向。近期很多工作通过融合多层来提升检测和分割的性能，按照融合与预测的先后顺序，分类为早融合(Early fusion)和晚融合(Late fusion)。
早融合: 先融合多层的特征，然后在融合后的特征上训练预测器。这类方法也被称为skip connection。
这里面的代表是ION和HyperNet。本文主要介绍 Inside-Outside Net(ION)的思想细节。

转载请注明文章出处: 多尺度R-CNN论文笔记(2): Inside-Outside Net: Detecting Objects in Context with Skip Pooling and Recurrent Neural Networks http://blog.csdn.net/solomon1558/article/details/72824370

1. Abstract

上下文信息和多尺度表征(Contextual and multi-scale representations)对于提高视觉识别任务非常关键。Inside-Outside Net（ION）利用RoI内部(Inside)和外部(Outside)的信息改进检测性能。使用空间递归数据网络（spatial recurrent neural networks）集成RoI外部的contextual信息；使用skip-connection提取多尺度特征。
ION将PASCAL VOC 2012 object detection的mAP从 73.9% 提升到 76.4% mAP。在MS COCO dataset上，ION将mAP从 19.7% 提升到33.1%。这篇文章是Cornell大学PhD Sean Bell 2015年的工作，论文发表在CVPR2016上。该算法获得了 MS COCO 2015 Detection 的 Best Student Entry 和 3rd place in total，同年比赛第一由何恺明的ResNet赢得。

2. Methods

    ION是在Fast R-CNN检测模型的基础上改进的，主要有两个创新点：(1) Inside：通过skip pooling提取RoI在不同尺度不同抽象层次的特征；(2) Outside : 通过spatial recurrent neural network(IRNN)提取RoI外部的contextual信息。
    这个工作认为，理解一幅图片，RoI inside 的 image/object information 和 outside 的 global contextual information 同样重要，都不可以丢失。所以作者提出了同时利用这两方面的信息——构造了 Inside-Outside Net（ION）。
    如图-1所示，ION特征/Context融合的阶段是在proposal提取过程之后的Fast R-CNN阶段。

图-1 Inside-Outside Net(ION)
其中，inside 部分它们的思想依然是 multi-scale representation，用 conv3, conv4, conv5 等层级 stacked 抽取 features，因为这样对于 small objects 就不会丢失 lower-level layer 的 high resolution information。另一方面，它们在 outside 部分的工作则更 special 一点。它们使用的是 multi-dimensional IRNN，其中 multi-dimensional 的意思是，我们常见的 RNN 最多就是 bi-directional，双向的；但是在一幅平面图里，我们有横纵两个大方向，则一共有4个小方向；而 IRNN 则是用 identity matrix 进行初始化的基于 ReLU activation 的 RNN 的别称。
图-2 Four-directional IRNN architecture
（skip pooling：对proposals在多层特征上做ROI pooling，L2归一化后拼接起来，然后再利用 1x1Conv layer将feature maps resize到512x7x7的大小。
context features with IRNNs：对于一个feature maps，有四个独立的RNN对其进行上下左右四个方向的移动。

总结：

（1） paper 使用了multi-scale 进行object detection，在浅层Conv层对其feature maps进行roi-pooling，增强了对small object的detect能力。
（2）使用了RNN对RoI周围的context的信息建模，增强feature信息，促进后续的分类和回归性能。