论文地址:https://arxiv.org/abs/1903.00179
代码:https://github.com/CaitinZhao/cvpr2019_Pyramid-Feature-Attention-Network-for-Saliency-detection
发表于:CVPR’19
Abstract
显著性检测是计算机视觉的基本挑战之一。如何提取有效的特征是显著性检测的一个关键点。最近的方法主要是不加区分地采用融合多尺度卷积特征。然而,并非所有的特征都对显著性检测有用,有些甚至会造成干扰。为了解决这个问题,我们提出了金字塔特征注意力网络,以关注有效的高级背景特征和低级空间结构特征。首先,我们设计了上下文感知的金字塔特征提取(CPFE)模块,用于多尺度高层特征图,以捕获丰富的上下文特征。其次,我们在CPFE特征图后采用通道注意力(CA),在低层次特征图后采用空间注意力(SA),然后将CA和SA的输出融合在一起。最后,我们提出了一个边缘保留损失,以指导网络在边界定位中学习更多的细节信息。在五个基准数据集上进行的广泛评估表明,所提出的方法在不同的评估指标下优于SOTA。
I. Overview
本文的主要思想是,浅层特征(前两个block)与深层特征(后三个block)对最终结果的贡献是不同的;前者能提供局部细节信息,但是噪声多;而后者能提供全局上下文,但是细节不足。因此,需要设计不同的结构分别对这两种特征进行处理。
II. Network Architecture
可以看到,本文也是并没有去采用严格的逐级上采样decoder。对于低级特征conv1、conv2,经过一个3×3卷积进行降维,然后通过空间注意力处理;而对于高级特征conv3、conv4、conv5,经过一个CPFE模块处理,再通过通道注意力以及一个1×1卷积,最后直接上采样4倍;此时,再将处理后的低级特征与高级特征相加,通过一个卷积层得到最终结果。
这里面其实有个小讲究,对于低级特征,只用了空间注意力,因为在浅层各个通道的重要程度都差不多(也没多少通道);而对于高级特征,只用了通道注意力,因为在深层是比较抽象的高级语义特征,因此在这里用空间注意力没有什么意义。
总而言之也是属于比较"轻量简洁"的那种。
III. Context-aware Pyramid Feature Extraction(CPFE)
说白了就是对三个深层特征conv3、conv4、conv5各自过一个空洞卷积块。