本文发表在NeurIPS 2020上,内容是关于Co-SOD,主要讲了如何充分利用intra-saliency和inter-saliency,每一步都解释得很到位,是一篇很值得阅读的论文。
一些名词解释
- Co-salient Object Detection (Co-SOD): Detect the common salient objects among a group of input images.
- Intra-saliency: salient object detection of a single image.
- Inter-saliency: exploit the inherent interaction of a group of interrelated images.
- SISMs:single image saliency maps
ICNet主要思路
Figure1中是ICNet的主要思路,首先提取intra-saliency categories,比如图中输入的四张图片,内容类别分别包括Pineapple+Orange, Pineapple+Person…然后探索相关性(correlations),进而获得共显著性信息。
主要贡献
- 针对Co-SOD问题提出ICNet:ICNet能够整合SISMs的intra-saliency特征和correlation
techniques - 证明了好好去利用SISMs能够提升Co-SOD的表现:利用normalized masked average pooling(NMAP,规范掩码平均池化)和correlation fusion
module(CFM,相关融合模块)可以很好地从SISM何深度特征中捕获到intra cues和inter cues - 引入Rearranged self-correlation feature strategy(RSCF,重新排列的自相关特征)获得鲁棒的具有inter cues的共显著特征。得益于语义类别和位置独立性,ICNet与RSCF实现了更好的Co-SOD性能。
ICNet
整体框架
Co-SOD的目标就是要发现共同的显著物体然后生成共显著性图,将图片I输入encoder提取出F,再将F和S(SISMs)整合在一起送入标准深度网络,挖掘出游泳的intra cues,再使用NMAP产生单张图片向量(SIVs)V,V代表了潜intra-saliency categories。
后续,为了获得inter cues,这里使用CFM去挖掘F和V的关联,产生co-salient attention maps(CSA,共显著注意图)A
为了保持F和A在类别独立性的一致性,计算F的自相关和额外的重排操作,获得重排自相关特征Fr【Rearranged self-correlation feature strategy(RSCF):重新排列的自相关特征,用以在保持语义类别独立性的同时受益于全局感受野。】
最后,A和Fr送入decoder,预测出共显著图M
- 采用NMAP结合任意SOD和深度特征预测得到的SISMs
一些深度网络试图通过将SISM作为子网络的训练目标来提取内部线索,而不是直接将SISM集成到网络中进行端到端训练。然而,SISM还不够精确,不能够只依靠它来推测单显著区域。因此,只使用SISMs监督训练网络训练会导致intra cues不准确。
这里采用NMAP操作,如图3(a)所示,给定一组l2范式规范的图像特征F,调整S到合适的尺寸,产生SIVs V:
SISMs可以通过使用任何现成的SOD模型预测得到,通过对应位置元素进行乘法直接过滤掉潜在的非显著区域的特征。这样,即使SISM并不是精确的,在平均和标准化操作后,不准确性也会很大程度被稀释。因此,vi能够表达潜在的intra-saliency categories(图3(b)),并被视为intra-cues。
- 采用CFM捕获inter-cues和单张图片特征之间的相关性
CFM计算了V中的SIVs和F中的单个图像特征之间的像素级相关性,生成有用的inter cues,使网络能够处理具有任意数量的图像组。
如图4所示,对于每一张V中vi,计算其与Fk中像素级别特征向量的内积,产生一个相关性图Cki,每一张Cki都强调了Fk中关于vi的高响应区。但是,对于不能代表共显著类别的SIV,生成的相关性图突出显示了与共显著类别无关的区域。所以,为了减轻这些噪声相关性图对最终inter cues的影响,将Cki与一个权重向量融合,以解释每对相关性图之间的相关性:
α是一个学习因子,将向量调节到适当的大小,以进行softmax归一化,CˆkCˆTk 这里代表相关矩阵,通过内积度量每两个相关性图之间的相关性,1表示所有相关性图的n维向量。利用权值向量Wk,将相关图Cki相加,然后进行最小-最大归一化,得到特征图Fk的共显著注意(CSA)图Ak作为inter cue。一旦相关映射Ckj有噪声,那么它与大多数其他相关图就不相似了,这样会导致Wkj的权重较小。因此,加权融合合理地抑制了噪声相关图,使CSA图Ak能够发现Fk中潜在的共显著区域。
图5显示了生成的CSA映射的一些示例。尽管使用的SISMs(第2行)对共显著类别有噪声,或者甚至不包括任何显著的对象,生成的CSA图(第3行)也能突出显示与共显著类别相似的区域,这表明CSA图可以很好地表达inter一致性。
3. 重排自相关特征
得到CSA图Ak后,将其与l2归一化特征Fk相乘,聚焦共显著区域,最终预测Co-SOD图,但是这样的做法会导致网络无法区分相似但不同类别的像素,从而导致次优预测。这主要是由Ak和Fk之间的类别依赖性的不一致引起的:Ak是类别独立的,反映了潜在的共显著性得分,Fk是类别相关的,每个像素都是一个代表特定类别的向量。在最初的实验中,作者们发现ICNet的预测主要依赖于类别独立的Ak,但Fk中的类别信息(可用于进一步识别具有相似语义的像素的类别)被忽略了。为了解决这种不一致性,作者明确利用Fk中的类别信息来计算Fk中像素对之间的相似性,并将Fk转换为类别独立的自相关特征(SCF)。另外,将SCF扩展到一个“重排”版本(RSCF),进一步提高了ICNet在Co-SOD上的性能。
实验
损失函数:
Quantitative comparisons:
Visual comparisons:
Ablation Study:
失败案例
ICNet严重依赖于SISM,当使用的SISM不可靠时,就会在Co-SOD上失败。