论文地址:https://openaccess.thecvf.com/content/ICCV2021/html/Siris_Scene_Context-Aware_Salient_Object_Detection_ICCV_2021_paper.html
代码:https://github.com/SirisAvishek/Scene_Context_Aware_Saliency
发表于:ICCV’21
Abstract
显著目标检测可以识别图像中吸引视觉注意力的物体。尽管最近的文献中考虑了上下文特征,但它们在现实世界的复杂场景中经常失效。我们观察到,这主要是由于两个问题。首先,大多数现有的数据集由简单的前景和背景组成,很难代表现实生活中的场景。第二,目前的方法只学习显著对象的上下文特征,这不足以为复杂场景中的显著性推理建立高层次的语义模型。为了解决这些问题,我们首先在本文中构建了一个具有复杂场景的新的大规模数据集。然后,我们提出了一种上下文感知的学习方法,以明确地利用语义的场景上下文。具体来说,我们提出了两个模块来实现这一目标:1)语义场景上下文细化模块,用场景上下文来增强从显著对象中学习的上下文特征;2)上下文实例Transformer,学习物体和场景上下文之间的上下文关系。据我们所知,这种高层次的图像场景语义信息在对显著性检测文献中的探索还不够。广泛的实验表明,所提出的方法在复杂场景下的显著性检测中优于最先进的技术,并能很好地转移到其他现有的数据集。
I. Motivation
显著目标检测实际上意义在于作为下游任务(如image captioning、image parsing等)的预处理步骤,因此比较吃泛化能力。但是这些应用中场景的复杂程度往往吊打Saliency自身用于训练的数据,导致效果不佳。一个例子如下所示:
本文认为造成这一结果的原因是"现有模型并不能很好地学到语义上下文"。当然,另一个可能的原因是现有的数据集本来就"太简单"了,因此较难学到语义信息。为此本文给出的第一个解决措施也相当壕——搞一个新的数据集,如下所示:
此外,既然缺语义上下文…那我们就直接把目前高难任务的网络拿过来,这种网络一般都有很强的全局上下文学习能力,可以用来试图"碾压"saliency任务。为此本文的网络基本修改自用于全景分割的Mask-RCNN&PFPN。
II. Network Architecture
除去Semantic Scene Context Refinement Module(一个事实上较常规的特征融合注意力模块)以及一个Context Instance Transformer Module,剩下的基本属于Mask-RCNN&PFPN的结构。
Shared Context Segmentation Decoder其实就是PFPN的decoder,能够提取用于全景分割的丰富上下文信息,后文不再对此进行详细介绍。
III. Semantic Scene Context Refinement
由于全景分割Shared Context Segmentation Decoder所提供的语义信息实际上会超出saliency所需,此外其中也包含着一些噪声,因此这里常规地使用了注意力机制对融合特征进行后处理。具体来说,将Mask-RCNN P5、P4、P3特征(P2属于浅层局部细节,所以不用P2)与上节所提取的上下文特征concat,卷积,然后分两路进行通道注意力(Channel-wise Refinement)、空间注意力(Spatial-wise Refinement)处理,最后再残差、卷积。
IV. Contextual Instance Transformer
Contextual Instance Transformer的作用是通过注意力来建模高级语义信息。即,对(RoIAlign得到的)object feature之间做self attention建模对象之间的关系,以及对object feature与(SSCR得到的)scence feature之间做attention建模对象与环境的关系。
V. Salient Instance Network
因为Mask-RCNN是有一个”副产品”mask的…因此这里的Salient Instance Network相当于拿这个mask做为最终的saliency map。