文献：A Simple Pooling-Based Design for Real-Time Salient Object Detection_joint training with the edge detection network for-CSDN博客

本文链接：https://blog.csdn.net/cangafuture/article/details/108703695

文献:A Simple Pooling-Based Design for Real-Time Salient Object Detection

Abstract

本文的主要作用在于如何扩大池化在显著性检测中的作用，主要结构是U形结构。首先在自下而上的结构中建立一个全局引导模块(GGM)，旨在为不同特征级别的图层提供潜在显着物体的位置信息。随后设计了一个特征聚合模块(FAM)，以使粗略语义信息与自顶而下的路径中的细微特征很好地结合到一起。通过在自上而下的路径中的融合操作之后添加FAM，可以将GGM中的粗略特征与各种比例的特征无缝融合。这两个基于池的模块允许逐步完善高级语义功能，从而生成细节丰富的显着性图。

1 Introduction

显著物体检测旨在在从图像中检测出视觉上最鲜明的物体。在诸多方面均有重要应用。传统的显著物体检测方法依赖于手工注释的特征以获得局部细节和全局上下文信息。但是缺乏高级语义信息限制了他们在复杂场景中检测物体显著对象的能力。得益于卷积神经网络（CNN）。CNN可以很好的在多尺度中提取高级语义信息和低级语义信息，因此极大地促进了显著对象检测模型的发展。一些方法中指出在CNN中使用类金字塔状的结构，较浅的夹断挺长具有较大的孔家大小，并保留丰富详细的底层信息，而较深的阶段包含更多的语义知识，并且可以更好地定位重要对象的确切位置。但是尽管这种方法可以实现良好的性能，但是礽ran具有较大的改进空间。主要包括两个方面：

首先，在U形结构中，高级语义信息逐渐传送到较浅的层，因此，较深层捕获的位置信息可以同时逐渐被稀释
有文献指出，CNN的接收场大小与他的层深度不成比例。

现存的方法通过将注意力机制引入U形结构，以循环方式细化特征图，结合多尺度特征信息来解决上述问题，或者想显著性图添加额外的约束，比如边界损失项。

        本文所提出的方法与上述不同，本文提出如何解决这些问题通过在U形结构中扩展池化技术的作用。总而言之，本文的模型中包含两个结构，这两个结构都基于金字塔特征模型；一个全局引导模块（GGM），一个特征聚合模块（FAM），我们的GGM由修改的金字塔模型(PPM),和一系列全局引导流(Global Guidence Flows GGF)组成，与直接将PPM插入到U形网咯不同，我们的GGM是一个单独的模块，更具体地说，PPM放置在主干的顶部以捕获全局信息（显著对象所在的位置），通过引入GGF，可以将PPM收集到的高级语义信息传递到金字塔模型的剩下的层，这样做的好处是弥补了U形状网络的缺点，即自顶而下的信号逐渐被稀释。考虑到来自GGF的粗略显著特征图与金字塔不同尺度上的特征图的融合问题。
        本文还提出了一个特征聚合模块(FAM)该模块将融合后的特征作为输入，该模块首先将融合的特征图转换为多个特征空间，以捕获不同比例的局部上下文信息，然后组合信息以权衡融合的数如特征图的组成。
        由于以上两个模块都是基于池化技术的，因此我们将其称为PoolNet方法。

2 Related Work

得益于CNN强大的特征提取能力，传统的基于手工标注的显著性检测方法正在逐渐被淘汰，Li等人利用从CNN中提取的多尺度特征来计算每个超像素的显著性值，Wang等人使用了连个CNN，旨在去混合局部超像素估计和全局推荐搜索以产生显著图…，但是这些方法都有一个问题，他们都忽略了整个输入图像的基本空间信息。
为了克服这个问题，本文的方法与其他的解决方式不同，本文并没有探索新的网络结构，本文研究如何将简单的池化技术应用于CNN，以同时提高性能并加快运行速度。

3 PoolNet

在其他文献中已经指出，高级语义信息可以有效地发现显著对象的特定位置，同时低层和中层特征对于将从深层提取的特征从粗超层改进为精细层也至关重要。

3.1 Overall Pipline

PoolNet

本文基于特征金字塔网络(FPNS)来建立我们的网络，特征金字塔网络是一种典型的U形结构，以自下而上和自上而下的方式设计（山兔左上角所示），得益于分类网络整合多级特征的强大能力，这种结构在一些计算机视觉实验中被广泛使用如上图所示我们介绍了一个全局引导模块(GGM),其放在自下而上路径的顶部使用，通过将GGM提取的高级信息汇总到各个级别的要素图中，我们的目标是明确地注意到显著对象所在的不用要素级别的图层。偶从GGM中所得到的引导信息再分别在不同层进行融合，本文随之介绍了一个特征聚合模块（FAM）用以确保不同尺度的特征图可以无缝合并。

3.2 Global Guidance Module

        FPN提供了一种经典的体系结构，用以组合分类主干中的多级功能。然而，由于自上而下的路径是建立在自下而上的骨干的基础上的，这种U形结构存在的一种问题是高级特征在传输到较低层时将会被逐渐稀释。由于CNN的实际感受野比理论上要小很多，特别是对于较深的层，因此整个网络的接收与不足以捕获输入图象的全局信息。这个不足的直接影响是仅有部分显著图可以被发现。关于自顶向下的路径中缺少用于高级特征图的高级语义信息的问题，我们介绍了一个全局指导模块，该模块包含金字塔池模块(PPM)的修改版本和一系列全局引导流(GGF)以显示使每个级别的特征图都知道显著对象的位置。
        更具体地说，我们的GGM中的PPM包含4个字分支，以捕获图像的上下文信息。第一个和最后一个分支分别是恒等映射层和全局平均池化层。对于两个中间分支，我们采用平均池化层，以确保他们输出的特征图分别具有3*3和5*5的空间大小，对于PPM，我们现在需要做的是如何确保PPM产生的指导信息可以与自上而下的路径中的不同级别的特征图合理地融合在一起。
        与之前的工作不同，以前我们只是将PPM视为U形结构的一部分，而我们的GGM是U形结构的。通过引入一系列的全局引导流（恒等映射）高级语义信息可以轻松地传递到各个级别的特征图（上图中的绿色箭头）。通过这种方式，我们显著增加了自上而下路径的每个部分中的全局应道信息的权重，以确保在构建FPN时不会稀释位置信息。
        为了更好地展示我们GGM的有效性。我们做了一些视觉比较如下图所示:
visual comparisons
可以很容易地发现，仅使用FPN骨干，就很难为某些复杂场景定位显着对象。还有一些结果，其中仅检测到显着物体的一部分。但是，当我们的GGM合并后，结果显着图的质量将大大提高。如图2f所示，可以精确发现明显的物体，这证明了GGM的重要性。

3.3 特征聚合模块

利用GGM ，我们可以将全局指导信息传递到不同的金字塔级别的要素图。然而一个值得探讨的问题是如何将GG每种的粗略显著图与金字塔不同比例的特征图无缝地合并，以VGGNet版本中的FPN为例，与输入的图像的大小相比，对应于金字塔对于C中的特征图{C₁，C₂，C₃，C₄，C₅}的下采样率分别为{2，4，8，16}。在FPN自顶向下的路径中，分辨率较粗糙的特征图将上采样1倍。因此在合并操作之后添加内核大小为3*3的卷积层可以有效地减少上采样的混叠效果。但是我们的GGF需要更高的上采样率（如8）。有效和高效地弥合GGF与不用比例的特征图之间的巨大差距至关重要。为此，我们提出了一系列特征聚合模块，每个模块包含4个子分子，如图3所示，在前向传播中，首先将输入特征图输入到不同的比例尺空间中通过将其传入具有不同下采样率的平均池化层中，然后将来自不用同子支路的上采样特征图合并在一起，然后是3*3卷积层。
一般而言，我们的FAM具有两个优势。首先，它有助于我们的模型减少上采样的混叠效应，尤其是在上采样率较大时（例如8）。另外，它允许每个空间位置在不同的比例空间上查看本地上下文，从而进一步扩大了整个网络的接收范围。据我们所知，这是第一项揭示FAM有助于减少上采样的混叠效应的工作。

验证我们提出的FAM的有效性，进行了相关比较，比较结果如下：
在这里插入图片描述

4 Joint Training with Edge Detection

第3节中描述的体系结构在多个流行的显着物体检测基准上已经超过了所有先前的最新单模型结果。尽管如此，通过观察模型产生的显着性图，我们发现许多不准确（不完整或过度预测）的预测是由于对象边界不清晰而引起的。首先，我们尝试通过添加一个额外的预测分支来解决此问题，该分支建立在第三节中介绍的体系结构上。来估计显着对象的边界。具体细节可以在图1上观察到。我们在自上而下的路径中三个特征级别的FAM之后添加了三个残差块，这些残差块用于信息转换。这些残差块类似于[7]中的设计，通道数分别是{128,256,512}, 从精细级别到粗糙级别。如[26]中所述，每个残差块之后是一个16通道的3*3卷积层用于特征压缩，再加上一个1通道1*1卷积层用于边缘预测。我们还将这3个16通道的3*3卷积层连接起来，并将它们馈送到具有48个通道的3个连续3*3卷积层，以将捕获的边缘信息传输到显著物体检测分支以进行细节增强。
与[17]相似，在训练阶段，我们将显着物体的边界用作联合训练的基础。但是，此过程不会给我们带来任何性能提升，并且某些结果仍然缺少对象边界的详细信息。例如，如在图5的列c中所演示的，对于前景与背景之间的对比度低的场景，所得的显着图和边界图仍然是模糊的。其原因可能是从显着对象派生的地面真边图仍然缺少大多数显着对象的详细信息。他们只是告诉我们显着对象的最外边界在哪里，特别是在显着对象之间存在重叠的情况下。

考虑到上述论点，我们尝试使用与[26]中相同的边缘检测数据集与边缘检测任务进行联合训练。在训练期间，交替输入来自显着物体检测数据集和边缘检测数据集的图像。如图5所示，联合训练与边缘检测任务可以极大地改善检测到的显着物体的细节。我们将在实验部分提供更多定量分析。