目录
(1)Co-Salient Object Detection问题定义
(3)Group Collaborating Module(GCM)
(4)Auxiliary Classification Module(ACM)
1. Title
Group Collaborative Learning for Co-Salient Object Detection
2. Summary
本文创新性地在CoSOD任务中引入了组间协同性训练的方法,模型的输入来自不同组的图片。
Group Affinity Module(GAM)使用逐帧计算相似度的方法,获取组内各个图片间的相似度,并使用了大量Global Max Pooling和Global Average Pooling策略,降低噪声目标的影响。
Group Collaborating Module(GCM)则采用类似于交叉Attention的方法,获取组内特征以及组间特征,并通过两个不同的监督信号,提升组内特征的一致性和组间特征的可分离性。
Auxiliary Classification Module(ACM)则是通过加入一个辅助分类头的方法去对嵌入式空间进行进一步监督。
3. Problem Statement
本文主要解决的问题是Co-Salient Object Detection。
(1)Co-Salient Object Detection问题定义
协同显著性检测问题:在一组相关的图片中,检测出同时出现的显著性物体。
CoSOD相较于典型的SOD任务来说,更具有挑战性,因为CoSOD需要在其他目标存在的情况下,仅检测出在多张图片中同时出现的目标。
(2)之前CoSOD方法存在问题
之前大部分的CoSOD问题主要利用的是在一个组内部的一系列图片的一致性,包括一些共享的线索信息、语义联系等。
但是仅在一个组内部提取特征会存在一些问题:
-
同一个组内部的images一般都包含相似的前景,仅能提供一些正向的关系用于说明哪些可能是显著性目标,但是缺乏负向的一些信息用于区分不同的目标。
-
对于大部分CoSOD数据集来说,一个组内的图片的数目都比较少,一般在20-40张,因此,不足以去习得一个具有高分辨能力的特征。
-
一个组内的图片难以提供高级的语义信息,而高级的语义信息对于区分复杂现实情境中的噪声目标是至关重要的。
4. Method(s)
为了解决上述问题,本文提出了一个具有创意的Group Collaborative learning Framework(GCoNet),用于挖掘不同image groups之间的语义联系。GCoNet主要包含三个部分group affinity module (GAM),group collaborating module (GCM) 和 auxiliary classification module (ACM),GAM和GAM分别用于习得组内的一致性和组间的可分离性,ACM则用于学习一个更好的嵌入式空间。
(1)Architecture Overview
-
首先,通过一个共享的Encoder提取来自两个不同组的图片的特征。
-
然后,通过Group Affinity Module(GAM)整合组内单独图片的特征,提取出公共特征。
-
与此同时,使用Group Collaborating Module(GCM)去进一步增强来自两个不同组的图片的特征,用以对两组图片进行区分。
-
最后使用Auxiliary Classification Module (ACM)引入一个辅助性的分类监督信号,以习得一个更好的嵌入式空间。
(2)Group Affinity Module(GAM)
本文将Self-Supervised Video Tracking方法中的传播方法(将目标物体的分割掩码基于像素相似度的联系,将其传播至两个相邻帧)扩展至CoSOD任务中,计算同一组内所有图片之间的Global Affinity。
-
对于来自同一组的任意两张图片,使用点乘的方法计算其像素级的相关性:
-
为了降低噪声的影响,计算出相关性矩阵中的最大值作为其Affinity Map:
-
同理可以计算整个Groups内部所有images之间的Affinity Map,然后再获取Affinity Map的最大值以降低噪声的影响,最后将最大值map在N个图片上取均值,并进行reshape,得到Global Affinity Attention Map:
- 然后将得到的Global Affinity Attention Map与原特征图相乘,即可得到最终的增强后的feature map:
-
最终增强后的feature map在batch和spatial维度进行Avearge Pooling,最终得到Attention Consensus,整体流程见下图:
-
GAM模块聚焦于捕获同一组内图片中的公共显著性目标的共性特征,用于提升组内一致性,降低了组内其他噪声目标的影响。最终的Attention Consensus会和原来的feature map采用Depthwise Correlation方法进行融合,融合后的特征会送入Decoder中进行协同显著性map的预测,并采用GT进行监督:
(3)Group Collaborating Module(GCM)
组间信息的使用有利于处理包含多个显著性目标的复杂场景。
-
对于来自两个不同组的图片来说,首先使用GAM获取其对应的Feature Maps以及AttentionConsensus:
-
Intra-Group Multiplication用于获取Intra-Group Representation:
-
Inter-Group Multiplication用于获取Inter-Group Representation:
-
将Intra-Group Representation和Inter-Group Representation送入一个小卷积网络和上采样层中进行Saliency Map的生成,并采用不同的监督信号进行监督,对于Intra-Group Representation生成的Saliency Map采用GT进行监督,而Inter-Group Representation生成的Saliency Map采用全0图进行监督:
-
GCM模块仅作为一种正则化作用,在推理过程中可以去掉GCM模块。
(4)Auxiliary Classification Module(ACM)
为了习得更具有分辨力的特征,本文使用了ACM用于获取高级语义特征。
ACM有一个GAP层、一个FC层组成,输入信号为Backbone输出特征,最终通过GT进行监督:
(5)End-to-End Training
三个模块和Backbone同时进行训练:
5. Evaluation
本文使用的是CoSOD领域常用的几个指标对模型进行评估:maxim E-measure,S-measure,maximum F-measure和mean absolute error。
消融实验
对比结果
可视化分析
6. Conclusion
本文针对CoSOD任务提出了一个创新性的Group Collaborative Learning Framework (GCoNet),重点是引入了Group-level的特征,提升了组内一致性和组间可分离性,并且GCoNet可以以实时的速度(16ms)进行运行,可以为下游其他任务提供基础。