【论文阅读】ICNet: Intra-saliency Correlation Network for Co-Saliency Detection

Cheungleilei

于 2022-03-22 20:00:57 发布

阅读量695

点赞数

分类专栏：论文阅读计算机视觉视觉显著文章标签： Co-SOD 计算机视觉共显著性目标检测

本文链接：https://blog.csdn.net/Cheungleilei/article/details/123652804

版权

计算机视觉同时被 3 个专栏收录

16 篇文章 2 订阅

订阅专栏

论文阅读

10 篇文章 0 订阅

订阅专栏

视觉显著

7 篇文章 0 订阅

订阅专栏

在这里插入图片描述
本文发表在NeurIPS 2020上，内容是关于Co-SOD，主要讲了如何充分利用intra-saliency和inter-saliency，每一步都解释得很到位，是一篇很值得阅读的论文。

一些名词解释

Co-salient Object Detection (Co-SOD): Detect the common salient objects among a group of input images.
Intra-saliency: salient object detection of a single image.
Inter-saliency: exploit the inherent interaction of a group of interrelated images.
SISMs：single image saliency maps

ICNet主要思路

在这里插入图片描述
Figure1中是ICNet的主要思路，首先提取intra-saliency categories，比如图中输入的四张图片，内容类别分别包括Pineapple+Orange， Pineapple+Person…然后探索相关性（correlations），进而获得共显著性信息。

主要贡献

针对Co-SOD问题提出ICNet：ICNet能够整合SISMs的intra-saliency特征和correlation
techniques
证明了好好去利用SISMs能够提升Co-SOD的表现：利用normalized masked average pooling（NMAP，规范掩码平均池化）和correlation fusion
module（CFM，相关融合模块）可以很好地从SISM何深度特征中捕获到intra cues和inter cues
引入Rearranged self-correlation feature strategy（RSCF，重新排列的自相关特征）获得鲁棒的具有inter cues的共显著特征。得益于语义类别和位置独立性，ICNet与RSCF实现了更好的Co-SOD性能。

ICNet

在这里插入图片描述

整体框架

Co-SOD的目标就是要发现共同的显著物体然后生成共显著性图，将图片I输入encoder提取出F，再将F和S（SISMs）整合在一起送入标准深度网络，挖掘出游泳的intra cues，再使用NMAP产生单张图片向量（SIVs）V，V代表了潜intra-saliency categories。
后续，为了获得inter cues，这里使用CFM去挖掘F和V的关联，产生co-salient attention maps（CSA，共显著注意图）A
为了保持F和A在类别独立性的一致性，计算F的自相关和额外的重排操作，获得重排自相关特征Fr【Rearranged self-correlation feature strategy（RSCF）：重新排列的自相关特征，用以在保持语义类别独立性的同时受益于全局感受野。】
最后，A和Fr送入decoder，预测出共显著图M

采用NMAP结合任意SOD和深度特征预测得到的SISMs
一些深度网络试图通过将SISM作为子网络的训练目标来提取内部线索，而不是直接将SISM集成到网络中进行端到端训练。然而，SISM还不够精确，不能够只依靠它来推测单显著区域。因此，只使用SISMs监督训练网络训练会导致intra cues不准确。
这里采用NMAP操作，如图3（a）所示，给定一组l2范式规范的图像特征F，调整S到合适的尺寸，产生SIVs V：

在这里插入图片描述

SISMs可以通过使用任何现成的SOD模型预测得到，通过对应位置元素进行乘法直接过滤掉潜在的非显著区域的特征。这样，即使SISM并不是精确的，在平均和标准化操作后，不准确性也会很大程度被稀释。因此，vi能够表达潜在的intra-saliency categories(图3(b))，并被视为intra-cues。

采用CFM捕获inter-cues和单张图片特征之间的相关性

CFM计算了V中的SIVs和F中的单个图像特征之间的像素级相关性，生成有用的inter cues，使网络能够处理具有任意数量的图像组。
在这里插入图片描述
如图4所示，对于每一张V中vi，计算其与Fk中像素级别特征向量的内积，产生一个相关性图Cki，每一张Cki都强调了Fk中关于vi的高响应区。但是，对于不能代表共显著类别的SIV，生成的相关性图突出显示了与共显著类别无关的区域。所以，为了减轻这些噪声相关性图对最终inter cues的影响，将Cki与一个权重向量融合，以解释每对相关性图之间的相关性：
在这里插入图片描述

α是一个学习因子，将向量调节到适当的大小，以进行softmax归一化，CˆkCˆTk 这里代表相关矩阵，通过内积度量每两个相关性图之间的相关性，1表示所有相关性图的n维向量。利用权值向量Wk，将相关图Cki相加，然后进行最小-最大归一化，得到特征图Fk的共显著注意(CSA)图Ak作为inter cue。一旦相关映射Ckj有噪声，那么它与大多数其他相关图就不相似了，这样会导致Wkj的权重较小。因此，加权融合合理地抑制了噪声相关图，使CSA图Ak能够发现Fk中潜在的共显著区域。
图5显示了生成的CSA映射的一些示例。尽管使用的SISMs（第2行）对共显著类别有噪声，或者甚至不包括任何显著的对象，生成的CSA图（第3行）也能突出显示与共显著类别相似的区域，这表明CSA图可以很好地表达inter一致性。
在这里插入图片描述
3. 重排自相关特征

得到CSA图Ak后，将其与l2归一化特征Fk相乘，聚焦共显著区域，最终预测Co-SOD图，但是这样的做法会导致网络无法区分相似但不同类别的像素，从而导致次优预测。这主要是由Ak和Fk之间的类别依赖性的不一致引起的：Ak是类别独立的，反映了潜在的共显著性得分，Fk是类别相关的，每个像素都是一个代表特定类别的向量。在最初的实验中，作者们发现ICNet的预测主要依赖于类别独立的Ak，但Fk中的类别信息（可用于进一步识别具有相似语义的像素的类别）被忽略了。为了解决这种不一致性，作者明确利用Fk中的类别信息来计算Fk中像素对之间的相似性，并将Fk转换为类别独立的自相关特征（SCF）。另外，将SCF扩展到一个“重排”版本(RSCF)，进一步提高了ICNet在Co-SOD上的性能。