ECCV2020-HCE-全局Roi Align目标检测网络 | Hierarchical Context Embedding for Region-based Object Detection

最新推荐文章于 2023-12-10 11:51:47 发布

chenzy_hust

最新推荐文章于 2023-12-10 11:51:47 发布

阅读量1.4k

点赞数 2

分类专栏：目标检测文章标签：计算机视觉

本文链接：https://blog.csdn.net/weixin_42096202/article/details/108014141

版权

目标检测专栏收录该内容

11 篇文章 1 订阅

订阅专栏

其实很早就有Global Roi Pooling这种思想了。本文深入地研究了全局上下文信息对于局部roi pooling的补充。效果来看，提升也一般。
论文地址：https://arxiv.org/pdf/2008.01338.pdf

在这里插入图片描述

Abstract：

最先进的二阶目标检测器将分类器应用于稀疏的目标proposals，这取决于RoIPool或RoIAlign提取的区域特征作为输入。尽管与proposals位置很好地相符，但区域范围内的特征仍可能缺少关键的上下文信息，这对于滤除嘈杂的背景检测以及识别没有明显外观的目标是必不可少的。为了解决此问题，我们提出了一个简单但有效的层级上下文嵌入（HCE）框架，该框架可用作即插即用组件，通过挖掘上下文线索来促进一系列基于区域的检测器的分类能力。具体来说，为了提高对上下文相关目标类别的识别，我们提出了一种图像级分类嵌入模块，该模块利用整体图像级上下文学习目标级概念。然后，通过在整个图像和感兴趣的区域下面利用分层嵌入的上下文信息来生成新颖的RoI特征，这也是对传统RoI特征的补充。此外，为了充分利用我们的分层上下文RoI功能，我们提出了早期和晚期融合策略（即特征融合和置信度融合），可以将其组合以提高基于区域的检测器的分类精度。全面的实验表明，我们的HCE框架具有灵活性和通用性，可对各种基于区域的检测器（包括FPN，Cascade R-CNN和Mask R-CNN）进行显着且持续的改进。

Introduction：

在这里插入图片描述
这种没有全局上下文信息的局部ROI特征提取方式，会造成误检测和类别辨识能力不足的情况。分别如上图所示。此外，目前还没有一个系统地设计用于嵌入上下文信息以提高基于区域的检测器的分类能力的启用框架。

本文为基于区域的目标检测器提供了一种新颖的分层上下文嵌入（HCE）框架。框架包含三个模块：
首先，设计了一个图像级分类嵌入模块，该模块本质上是在检测主干网络上与现有基于区域的检测头并行的多标签分类器，将目标级特征学习部分转换为图像级多标签分类任务。

其次，在实例级的图像级分类嵌入模块上，本文设计了一个简单但有效的过程来生成分层上下文RoI特征，这些特征可直接由区域检测头使用。由于全局上下文RoI功能通过图像级别的分类监督得到了增强，并利用了更大的上下文信息，因此它们与传统的RoI功能自然互补，后者由基于区域的检测器训练并且仅利用有限的上下文。

最后，使用早期和晚期策略（即特征融合和置信度融合）旨在充分利用本文的上下文RoI功能。通过定量实验，本文证明了它们可以结合起来进一步提高检测头的分类精度。

Approach：

在这里插入图片描述
网络整体框架如图所示，主要包含3个模块。
第一个模块，Image-Level Categorical Embedding（图像级分类嵌入模块）来促进较大上下文线索的目标的特征学习。
第二个模块，Hierarchical Contextual RoI Feature Generation，分层上下文ROI特征生成模块来整合实例级和全局级信息。
第三个模块， Feature Fusion && Confidence Fusion模块，分别利用特征融合与分类置信度融合进一步提升性能。

A.Image-Level Categorical Embedding
在这里插入图片描述
即在backbone网络的conv5上再加一层3x3卷积得到中间特征X，接着使用GAP和GMP两种pooling方式得到特征相加融合，再使用fc层预测得到一个多分类标签，使用多分类损失（MLL）函数进行优化学习：

这种对图像多分类嵌入的方式，可以使得主干网络自主学习一个全局类别的能力。此外，这种方式不需要额外的注释，只需要从原始标签中提取出单张图像的多分类标签即可。

B.Hierarchical Contextual RoI Feature Generation
在这里插入图片描述
为了进一步在ROI特征上引入全局上下文信息，本文提出了分层上下文ROI特征生成模块。具体由两个并行分支：

1.利用一阶段生成的proposals对特征X（Image-Level Categorical Embedding中的中间特征）进行ROI Align，得到目标实例级别的ROI特征X-instance

2.对特征X进行全局ROI Align得到全局的ROI特征X-global，这两个ROI特征的区别就是ROI Align时的特征尺寸不一致，生成的特征均是7x7大小

3.对两个ROI特征进行concat+conv融合得到生成的分层上下文ROI特征X-context

C.Feature Fusion && Confidence Fusion

主要包含早晚融合即特征融合与分类置信度融合两种。其中，特征融合就是对B中生成的分层上下文ROI特征与传统的ROI特征进行相加融合，进行互补。
在这里插入图片描述
此时，检测网络的head中就包含分层上下文ROI特征X-context，传统ROI特征X-fpn以及特征融合后的X-fusion3个特征。为了进一步利用好这3个特征，本文对X-context进行类别cls预测，对X-fpn和X-fusion进行类别cls与box回归。最后对X-contex和X-fpn的cls预测进行相加融合，进一步整合全局上下文信息的优点。备注：其中2FC是3个特征共享参数，推理的时候，可以只使用一个cls和box预测即可（后面实验有分析）