论文阅读:A Progressive Architecture With Knowledge Review Network for Salient Object Detection

论文地址:https://ojs.aaai.org/index.php/AAAI/article/view/16408
发表于:AAAI 2021

Abstract

显著目标的定位与分割是显著目标检测(SOD)中两个不同的任务。前者的目的是在全局范围内找到图像中最有吸引力的物体,而后者只能依赖包含显著目标的局部区域来实现。然而,以前的方法主要是以简单的端到端方式同时完成这两项任务,忽略了两项任务之间的差异。我们假设人类视觉系统会有序地定位和分割物体,因此我们为SOD提出了一个新颖的带有知识回顾网络的渐进式架构(PA-KRN),它由三个部分组成:

  • 一个粗定位模块(CLM),使用body-attention标签定位包含显著目标的粗糙区域,而没有边界细节
  • 一个基于注意力的采样器,以body-attention map为基础,可以获得高分辨率的显著目标区域
  • 一个细分割模块(FSM),对显著目标进行精细分割

应用于CLM和FSM的网络主要基于我们提出的知识回顾网络(KRN),该网络利用最精细的特征图来重新整合之前的所有层,这可以弥补自上而下路径中不断被稀释的重要信息。在五个benchmark上的实验表明,我们仅通过单一的KRN便可以超过SOTA。此外,PA-KRN表现更好,大大超越了上述的方法。

I. Motivation

目前基于提升边缘处性能的SOD方法存在如下问题:

  • 一些显著对象的分辨率较低(小目标),本身就缺乏边缘细节
  • SOD可以被拆分为两个任务(摘要中所提到的SOL与SOS),可能并不适合直接用单一End to End的方式来解决

此外,U型的网络也存在一些固有的问题:

  • 在网络逐渐融合浅层特征的过程中,深层特征会被逐渐被稀释

针对第一个小目标检测的问题,本文仿照人类视觉系统寻找显著目标的方式,构建了一个先定位再分割的网络。人眼这一生理过程如下图左所示:
在这里插入图片描述
可以看到这里面有个很有意思的东西叫做“Move Closer”,也就是说,在找到需要进一步观察的对象后,人眼有一个“放大”的过程(凑近了看&看的更清楚),这个时候其实周围信息就并不那么重要了。那么落实到分割的过程中,将小目标放大,确实有可能提升分割的性能。

而针对第二个问题,本文提出了知识回顾网络(KRN),引入了一种新的特征融合思路,用于缓解特征融合过程中深层信息丢失的问题。信息丢失的一个例子如下所示:
在这里插入图片描述
以FPN为例,可以看到,在自顶向下融合的过程中,红圈内的全局信息逐渐被稀释掉了。

II. Network Architecture

在这里插入图片描述
整体分为两大块,一部分是CLM&Sampler,用于对输入图像进行预处理,得到采样后的图像;另一部分是FSM,用于对采样后的图像执行SOD任务。CLM与FSM应用了同一套类似的Encoder-Decoder框架KRN。

III. Coarse Locating Module

Coarse Locating Module,粗定位模块,这个模块的作用是获得显著对象的大致位置,也就是上文提到的body attention map(以下简称attention map)。attention map张这样:
在这里插入图片描述
这里有一点比较有意思,CLM作为网络的一部分是单独进行训练的,以学习生成attention map的能力。既然要单独训练,那么首先就得制作相应的ground truth以供训练。从图中对比GT与attention map我们可以发现,attention map十分类似于对GT进行膨胀(dilation)操作,因此我们考虑以膨胀为基础来制作attention map。具体的操作分如下两步:

  • 首先使用核大小为K×K的binary dilation操作对ground truth进行处理,扩大label的范围,初步实现“包含大致位置”的效果
  • 再用核大小同样为K×K, σ \sigma σ为8的高斯核,进行模糊处理。这么做的用意个人猜测是直接binary dilation后的结果边缘并不是平滑的,这种情况下一些有用的边界处背景信息并没有被包含在粗attention map中,因此需要做一定的模糊处理来达到平滑边缘的效果

attention map的好处有如下几个:

  • 将显著目标中一些细长部分的区域扩大,降低识别难度,如上图第一行蝎尾、鹿脚
  • 有的情况前后景复杂,显著目标可能被前景分割为多个部分,此时attention map能将其重新融合至同一目标的范畴内,如上图第二行
  • 对复杂边缘进行平滑,如上图第三行

至于CLM网络的结构,其是基于KRN的,这将在后文进行介绍。

IV. Attention-based Sampler

Attention-based Sampler,基于注意力的采样器,这个模块是配合上节所提到的attention map一并使用的,用来解决小对象识别的问题。本文解决小目标的思想比较奇特:

  • 把小目标放大,就不存在小目标了

因此,回到上一节,attention map的作用就是确定哪个是显著目标,需要被放大,然后由sampler完成放大的过程。

这里需要注意的一点是,肯定不能够直接裁切放大,因为小目标本身原始的分辨率已经较低,缺乏细节,直接进行放大并不能改善信息缺乏的现状,因此需要用sampler进行重新采样,补充细节,使其无论在尺寸和细节上都接近真实的一般目标。

Attention-based Sampler结构如下所示,其输入为原始图像与attention map,输出为采样后的图像:
在这里插入图片描述
实际上该sampler直接引自文献[1](TASN, CVPR 2019)中的原始实现,感兴趣可以阅读相应的论文。

V. Fine Segmenting Module & Knowledge Review Network

Fine Segmenting Module,细分割模块。前面介绍的两个部分相当于图像的预处理阶段,因此到FSM才算正式开始SOD任务。FSM所采用的结构与CLM类似,也是一个KRN(注意FSM所用的KRN与CLM略有不同,多一个Edge Supervision),因此接下来重点对KRN(FSM)的结构进行介绍,如下图所示:
在这里插入图片描述
可以看到backbone依然采用的是一个Encoder(ResNet50)-Decoder架构,重点在于KRN的两个组成部分——KRM、SAM。为了描述方便,如图中所示,记Decoder得到的各级特征为 F 1 F_1 F1 F 2 F_2 F2 F 3 F_3 F3 F 4 F_4 F4 F 5 F_5 F5

Knowledge Review Module

如摘要所述,KRM的作用为"将最精细的特征图与其他层的特征重新融合在一起"。而所谓精细,指的自然就是分辨率最高的 F 5 F_5 F5了,具体的过程如下:

  • 首先,利用1×1卷积压缩 F 1 F_1 F1 F 2 F_2 F2 F 3 F_3 F3 F 4 F_4 F4的通道数,使其与 F 5 F_5 F5一致
  • F 1 F_1 F1 F 2 F_2 F2 F 3 F_3 F3 F 4 F_4 F4进行上采样,使其尺寸与 F 5 F_5 F5一致
  • F 1 F_1 F1 F 2 F_2 F2 F 3 F_3 F3 F 4 F_4 F4分别与 F 5 F_5 F5进行pixel-wise add,融合得到四组特征。这四组特征均利用ground truth进行监督
  • 最后,对这四组特征进行channel-wise concat,并利用1×1卷积降维至单通道,再上采样回原尺寸得到最终输出结果
Side-out Aggregation Module

从上图中可以看到,这个模块起的就是Decoder block的作用,核心思想与原始FPN类似,通过多次下采样、平均池化、卷积、再融合的过程,来提取多尺度的特征。

VI. Loss

由于本文CLM与FSM是分开训练的,因此下面依次介绍CLM与FSM所采用的loss。

CLM所采用的loss改编自文献[2]。记 P P P为predicted saliency map,Q为body-attention map,F为ground truth,有:
L c l m = λ 1 l b + λ 2 ∑ i = 1 5 l b i L_{c l m}=\lambda_{1} l_{b}+\lambda_{2} \sum_{i=1}^{5} l_{b}^{i} Lclm=λ1lb+λ2i=15lbi l b = N S S ′ + C C ′ + K L D l_{b}=N S S^{\prime}+C C^{\prime}+K L D lb=NSS+CC+KLD N S S ′ ( P , F ) = 1 N ∑ i ( F − μ ( F ) σ ( F ) − P − μ ( P ) σ ( P ) ) × F i N S S^{\prime}(P, F)=\frac{1}{N} \sum_{i}\left(\frac{F-\mu(F)}{\sigma(F)}-\frac{P-\mu(P)}{\sigma(P)}\right) \times F_{i} NSS(P,F)=N1i(σ(F)Fμ(F)σ(P)Pμ(P))×Fi

由于采用了deep supervision,有 l b i l_{b}^{i} lbi指第 i i i个中间attention map的loss, l b l_{b} lb为最终attention map的loss, λ 1 = 2 \lambda_{1}=2 λ1=2 λ 2 = 1 \lambda_{2}=1 λ2=1

而FSM采用的loss与大多数SOD方法类似,有 l s = l s a = l b c e + l i o u l_{s}=l_{sa}=l_{b c e}+l_{i o u} ls=lsa=lbce+liou l e = l b c e l_{e}=l_{bce} le=lbce ,最终:
L f s m = λ 3 l s + λ 4 ∑ i = 1 5 l s a i + λ 5 ∑ i = 1 5 l e i L_{f s m}=\lambda_{3} l_{s}+\lambda_{4} \sum_{i=1}^{5} l_{s a}^{i}+\lambda_{5} \sum_{i=1}^{5} l_{e}^{i} Lfsm=λ3ls+λ4i=15lsai+λ5i=15lei
与CLM类似,FSM同样采用了deep supervision,有 λ 3 = 2 \lambda_{3}=2 λ3=2 λ 4 = λ 5 = 1 \lambda_{4}=\lambda_{5}=1 λ4=λ5=1

在分别训练完CLM与FSM后,最后联合finetune所用的loss为两者的相加:
L = L c l m + L f s m L=L_{c l m}+L_{f s m} L=Lclm+Lfsm

VII. Experiment

性能超越了14个最近模型,包括RAS(ECCV 2018)、DGRL(CVPR 2018)、PiCANet(CVPR 2018)、MLMSNet(CVPR 2019)、AFNet(CVPR 2019)、PS(CVPR 2019)、CPD(CVPR 2019)、BASNet(CVPR 2019)、PoolNet(CVPR 2019)、EGNet(ICCV 2019)、ITSD(CVPR 2020)、GCPANet(AAAI 2020)、GateNet(ECCV 2020)、MINet(CVPR 2020)

VIII. Summary

本文的最大创新点在于提出了一种提升SOD小物体检测性能的思路:将小目标放大。作为一个图像预处理过程,本文先生成了一个粗分割结果来尽可能包含显著目标,然后以粗结果为依据进行重采样,完成放大的过程。既然尽可能地去将目标的尺寸给统一了,那么自然也能减轻scale varation带来的困难。

至于SOD网络部分,仍然采用的是比较主流的思路,去设法提升side output融合的效果。将中间各层特征分别与最终特征进行融合并监督,以达到恢复最终特征中缺失信息的目的。

Ref

[1] Zheng, H.; Fu, J.; Zha, Z.-J.; and Luo, J. 2019. Looking for the devil in the details: Learning trilinear attention sampling network for fine-grained image recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 5012–5021.
[2]Jia, S.; and Bruce, N. D. 2020. Eml-net: An expandable multi-layer network for saliency prediction. Image and Vision Computing 103887.

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值