IEEE Transactions on Industrial Electronics 2021
Kang Wang; Hongbo Bi; Yi Zhang; Cong Zhang; Ziqi Liu; Shuang Zheng
论文地址
一、简介
提出了一个COD模型,主要由DFE模块和GRCF模块组成。
从人类视觉机制角度来看,当我们看到一个场景时,有两个阶段。第一阶段中产生的特征来提取双向引导信息,然后进行第二级预测。
从对等特征中受益可以提供一些关于目标对象区域的位置的提示,我们采用了一个自我优化的关注单元和交叉细化单元来进行更准确的伪装地图。
二、方法
2.1 动机
对于COD任务,主要目的是检测类似于背景的对象。从人类视觉机制角度来看,当我们看到一个场景时,通常难以找到第一阶段中的完整伪装物体。为了捕获更详细的伪装maps,我们根据第一阶段的全面分析进行第二阶段。在观察的两个阶段之后,我们可以获得相对准确的伪装maps。
2.2 整体框架
如图Fig1所示,网络主要由两个部件组成,一个是双分支特征提取模块(DFE),另一个是逐渐精制交叉融合模块(GRCF)。粉色部分表示观察的第一个阶段,黄色部分表示观察的第二阶段。
RF结构提供更准确的信息和更大的感受野。PDF组件并行地聚合不同级别地特征,以产生第一阶段的伪装maps。HAREW模块来优化检测结果。
2.3 DFE模块
第一阶段:
在第一阶段,伪装物体的位置和形状被大致检测出来。为了改进第一阶段的结果,我们在第二阶段引入了注意力机制和指导信息。
在第一阶段,采用特征拼接的方式来聚合特征并送入RF模块中。然后将得到的R3、R4和R5送入PDC模块来聚合特征,最终输出粗略的伪装的maps(S1)。
其中,RF模块参考SINet。PDC模块参考CPD模型。PDC使用乘法进行特征融合。
第二阶段:
第二阶段,HAREW模块从第一阶段使用信息来对第二阶段进行指导预测。通过这种方式,我们可以获得比第一阶段更准确的伪装地图。其中指导信息包括前瞻性关注指导和逆转注意力指导。
HAREW模块包含两个输入(来自S1和来自当前卷积层的特征指导信息)和两个输出(一个用于下一级别的卷积层,一个用于串联操作进入RF结构)。HAREW含有三个部分,整体注意力,残差注意力和加法。
首先,我们使用Holistic Attention扩展初始伪装地图的覆盖区域,以提高初始伪装地图的有效性。其公式如下:
对S1进行下采样,并使用sigmoid函数,后经过高斯卷积和归一化,将其结果的每个通道取最大值,从而得到EGout。然后EGout与Fi相乘得到HAout。这个过程称为前向指导预测。
接下来,反向关注机制通过擦除当前预测的伪装区域以优化前向伪装对象检测。公式如下:
在预测过程中,我们无法保证正确预测所有像素,以便最小化这种现象的影响,我们使用加权补充来完全集成前向导过程和反向关注引导过程。
其中,PCS表示Pooling -> Conv -> Softmax。
2.4 GRCF模块
通过SRA模块优化maps,通过CR模块进一步优化对等层特征。这两个部分被称为SRA-CR。
RBConv是3×3的卷积将通道数变为256。
SRA部分的元素相乘是为了捕获更完整的信息,最大关注是考虑到在每个通道中,不是每一个像素是有意义的。SRA的表达公式如下:
CR部分公式如下:
其中,RBConv表示Conv -> BN -> ReLU。
2.5 损失函数
二进制交叉熵损失(BCE)被广泛用于测量预测和标签之间的差异,这将更多地关注像素级错误,并且不考虑每个像素之间的相关性。 iou丢失通常用于分割任务,旨在优化全局结构。
三、实验