论文核心:
论文提出了一个单阶段的高分辨率显著图检测算法。该网络结构编码层采用Transformer和cnn融合特征得到全局和局部特征信息,最后通过三段的解码层输出预测结果。论文提出了CMGM的网络结构块和AGL损失函数来融合矫正CNN和Transformer特征信息。同时提出了一个UHRSD的高分辨率数据集。
论文整体网络结构:
通过上图可以看出,该网络结构本质上是一个编码-解码的网络结构,只是在编码层使用了CNN和Transformer作为并行的编码层,使用多个DB网络结构块作为解码层,最后输出显著图分割结果。
在编码层阶段使用了Transformer和CNN网络结构,Transformer网络结构使用的是swin-b作为基础网络结构,从第1,2,3,4结构块中提取四种不同尺度的特征图和CNN特征进行融合,该网络的输入是将图片缩放之后再传到swin-b网络中,获取图片的全局信息。CNN网络部分使用的是ResNet-18网络结构,分别从该网络结构的stage1,stage2,stage3和stage4中获取不同尺度的特征图与swin-b的四种尺度特征图进行特征融合。
解码层网络结构就如上图所示有三种不同结构的DB网络结构块组成,进行上采样操作,最后输出显著图的分割结果。
跨模型嫁接模块(CMGM)
该模块的主要作用是将CNN特征和Transformer特征进行融合。网络结构如下图所示:
跨模型嫁接模块将ResNet提取到的特征C*H*W展平为1*C*HW,对于Swin Transformer提取到的特征同样。受到多头注意力机制的启发,我们将层归一化和线性映射得到新的三个特征。通过矩阵乘法得到。如下公式所示:
然后我们将Z进行线性映射并重新恢复成后再通过卷积层。经过两个短路连接如图所示。除了产生嫁接特征以外,CMGM还将产生一个交叉注意力矩阵(Cross Attention Matrix, CAM),其生成过程可以表示为:
注意力引导损失(AGL):
为了更好地将Transformer特征的全局语义信息嫁接到ResNet分支,我们设计了注意力引导损失(Attention Guided Loss, AGL)来辅助这一过程。我们认为CMGM产生的交叉注意力矩阵应该和真值标签产生的注意力矩阵相似,因为显著的特征应该有更高的相似度即在交叉注意力矩阵中更高的激活值。
最终损失为:
结果展示: