CVPR 2021
Qiang Zhai, Xin Li, Fan Yang, Chenglizhao Chen, Hong Cheng, Deng-Ping Fan
https://arxiv.org/abs/2104.02613
一、简介
我们的方法的灵感来自生物学研究的发现:捕捉真实的身体/物体形状是识破伪装的关键。一个理想的伪装目标检测模型应该能够从给定的场景中寻找有价值的、额外的线索,并将它们合并到一个联合学习框架中,用于特征表示联合增强。
受此启发,我们设计了交互式图学习模型(MGL),将传统的交互式学习思想从规则网格推广到图域。具体来说,MGL将一幅图像分解成两个特定任务的特征图——一个用于粗略定位目标,另一个用于精确捕捉其边界细节——并通过图形反复推理它们的高阶关系来充分利用互利。
设计了一种新的基于图、交互式学习的伪装目标检测方法,叫做交互式图学习模型(MGL)。使用基于图的伪装目标检测技术来利用两个紧密相关任务(COD和COEE)之间的相互指导知识。该方法能够获取语义指导知识和空间支持信息,相互促进两个任务的执行。
设计的基于图的交互功能,用于完全挖掘嵌入的导航信息。与传统的交互式学习方法不同,MGL集成了两个不同的基于图的交互模块来推理类型关系:RIGR用于从COE最小化分割指导信息来辅助COEE,ECGR用于结合真实的边先验来增强COD底层表示。
二、方法概述
MGL主要由三个部分组成: Multi-Task Feature Extraction (MTFE), Region-Induced Graph Reasoning (RIGR) module和Edge-Constricted Graph Reasoning (ECGR)。
MTFE:给定输入图像I(H×W×3),一个multi-task backbone被解耦为两个特定于任务的表示。Fc(h×w×c)用于粗略的检测目标,Fe(h×w×c)用于正确的捕捉真实边缘。
RIGR:将Fc和Fe通过图像投影操作fGproj转换为依赖样本的语义图Gc=(Vc,Ec)和Ge=(Ve,Ee)。语义图中,具有相似特征的像素形成顶点,边测量特征空间中顶点之间的affinity。交叉图交互式模块(CGI)fcgi用来捕获两个语义图之间的高级依赖关系,并将语义信息从Vc变成Ve’。然后通过图卷积进行图推理(fGR)获得最终的Vc和Ve’。最后将Vc和Ve’通过fRproj投影回原始坐标空间。
ECGR:在空间关系分析之前,先将Fe送入边缘分类器fEC,得到伪装的目标感知边缘图E。另外将Fe和Fc进行拼接形成新的特征图Fc‘,然后使用边缘支持图卷积(ESG-Conv)对边缘信息进行编码,在E的引导下增强Fc’更好地定位目标。最后我们将Fc’送到分类器fcc中,获得最终结果C。
在MGL中,利用RIGR和ECGR两个新的神经模块,在多个层次的相互作用空间上对COD和COEE之间的相互关系进行了推理。通过明确地推理它们之间的关系,有价值的相互指导信息可以直观地准确传播,以便在表征学习过程中相互帮助。值得一提的是,RIGR和ECGR可以连续堆叠,以实现反复性的相互学习。
三、Mutual Graph Learning
3.1 Multi-Task Feature Extraction (MTFE)
f将图像作为输入,并生成两个用于特定任务的特征图(一个用于COD,另一个用于COEE)。f是multi-task backbone network(一个多分支的基于ResNet的FCN网络)。
I是图像输入(H×W×3)。
Fc(h×w×c)是COD特征表示,Fe(h×w×c)是COEE特征表示。hw是特征图分辨率,c是通道数,从而能够很好地保存空间信息和高层语义信息。
3.2 Region-Induced Graph Reasoning (RIGR)
RIGR旨在推理COD内部以及COD和COEE之间的引导区域语义关系,而不考虑局部细节。它由四个操作/功能组成:(1)图投影fGproj,(2)交图交互fCGI,(3)图推理fGR和(4)图重投影fRproj。
3.2.1 Graph Projection(fGproj)
fGproj用于变换特征向量到图形节点嵌入/表示中。
节点表示如公式(2),σ是列向量,v是第k个节点的表示,构成节点特征矩阵V的第k列。
通过测量节点内表示之间的亲和度来计算图的邻接矩阵。
3.2.2 Cross-Graph Interaction(fCGI)
fCGI对图之间的交互进行建模,指导图间信息从Vc传递到Ve。利用注意力机制计算图间依赖关系。
3.2.3 Graph Reasoning(fGR)
在进行图间交互后,以Vc和Ve’为输入进行图内推理,得到增强的图表示。
g是非线性激活函数。
3.2.4 Graph Reprojection
要将增强的图形表示映射回原始坐标空间,我们将重新查看图形投影步骤中的赋值。
3.3 Edge-Constricted Graph Reasoning (ECGR)
ECGR将重点放在边约束关系推理上,使模型具有明确的边缘感知能力,从COEE中提取有用信息,进一步指导COD的表示学习。
Fc’是由Fc和Fe拼接得到的。
3.3.1 Node Generation
首先要生成基于边的节点嵌入。使用一个全连接层将Fe映射到伪装对象边缘E上。
3.3.2 Edge Supportive Graph Convolution(ESG-Conv)
3.4 Recurrent Learning Process
为了充分利用COD和COEE之间的互惠互利,我们可以进一步将我们的MGL表述为以下递归学习过程:
3.5 损失函数
四、实验
训练集是CAMO和COD10K的组合。
使用ImageNet预训练的ResNet50。对数据进行随机裁剪,左右翻转和[0.75, 1.25]范围内缩放。使用SGD优化策略。学习率调整图下公式,base_lr=1e-7,power=0.9。