标题:《Camouflaged Object Detection with Feature Decomposition and Edge Reconstruction》
利用特征分解和边缘重建进行伪装目标检测
论文:link
code:link
1.摘要
识别在视觉上融入周围背景的伪装物体是一个棘手的问题,由于伪装物体与背景的内在相似性以及模糊的边界,COD是一项具有挑战性的任务,解决这个问题的现有方法已经开发出各种模仿人类视觉系统的技术,尽管在很多方法上有效,但当伪装物体对视觉系统具有如此大的欺骗性时候,这些方法仍然很困难,在本文中,我们提出了COD的特征分解和边缘重建模型,FEDER模型通过使用可学习小波将特征分解为不同的频带来解决前景和背景的内在相似性,然后它专注于信息最丰富的波段,以挖掘区分前景和背景的微妙线索,为了实现这一目标,开发了频率注意模块和基于引导的特征聚合模块,为了解决模糊边界问题,我们建议与COD任务一起学习辅助边缘重建任务,我们设计了一个受常微分方程启发的边缘重建模块,可以生成精确的边缘,通过结合COD任务学习辅助任务,实验表明我们的FEDER模型显著优于最先进的方法,并且计算和内存成本便宜。
2.结构
![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/5effeb0416634031bdb72524e3b11905.png
3.方法
给定一个伪装图像,我们首先使用伪装特征编码器(CFE)提取一系列特征,然后对这些特征执行类小波分解(DWD),将它们分为不同的频带,我们选择信息最丰富的频段,例如高频分量和低频分量,以进行进一步分析,这些信息带由频率注意模块和基于引导的特征聚合模块处理,以突出不显眼的判别特征,利用聚合的特征,面向分割的边缘辅助解码器输出分割图和边缘预测图。
3.1 Camouflaged Feature Encoder(CFE)
继SINetV2之后,基本编码器E采用ResNet50/Res2Net作为其骨干网,给定大小的 W × H W \times H W×H的图像 ,基本编码器E生成一组分辨率为 H 2 k + 1 × W 2 k + 1 \frac{H}{{{2^{k + 1}}}} \times \frac{W}{{{2^{k + 1}}}} 2k+1H×2k+1W的特征图 { f k } k = 0 4 \left\{ {{f_k}} \right\}_{k = 0}^4 {fk}k=04 ,R-Net级联为将 { f k } k = 0 4 \left\{ {{f_k}} \right\}_{k = 0}^4 {fk}k=04 转换为信息更丰富且紧凑的输出,即一系列64通道的特征图 { f k r } k = 1 4 \left\{ {f_k^r} \right\}_{k = 1}^4 {fkr}k=14 ,此外,来自基本编码器E的最后一个特征图f4进一步被馈送到高效的空洞空间金字塔池化(e-ASPP)中,以扩大感受野并融合多上下文信息,从而得到 d 5 s = A e ( f 4 ) d_5^s = {A_e}\left( {{f_4}} \right) d5s=Ae(f4),其中 d 5 s d_5^s d5s是与 f 4 {f_4} f4具有相同空间分辨率的粗分割结果。
3.2深度类小波分解
3.2.1 可学习的类小波分解
(
f
k
r
)
H
F
=
W
H
F
(
f
k
r
)
{\left( {f_k^r} \right)_{HF}} = {W_{HF}}\left( {f_k^r} \right)
(fkr)HF=WHF(fkr)
(
f
k
r
)
L
F
=
W
L
F
(
f
k
r
)
{\left( {f_k^r} \right)_{LF}} = {W_{LF}}\left( {f_k^r} \right)
(fkr)LF=WLF(fkr)
其中
(
f
k
r
)
H
F
{\left( {f_k^r} \right)_{HF}}
(fkr)HF和
(
f
k
r
)
L
F
{\left( {f_k^r} \right)_{LF}}
(fkr)LF表示
f
k
r
f_k^r
fkr 的高频和低频分量,
W
H
F
{W_{HF}}
WHF 和
W
L
F
{W_{LF}}
WLF表示可学习的HF和LF滤波器,其系数按照AWD更新并由Haar小波初始化,学习的小波变化器预计比手动设计的小波更好地迎合COD数据,从而进一步促进不显眼的判别特征的提取。
3.2.2 频率注意模块(Frequency Attention Modules)
为了从分解的特征中提取判别信息,我们提出了高频注意(HFA)模块和低频注意(LFA)模块,分别对应于高频和低频频段。两个模块的详细结构如图3所示。
高频注意力模块。我们设计HFA模块来强调那些纹理丰富的区域,以进行细微的判别性特征提取。我们首先应用一个残差块来保存纹理,该残差块由3×3卷积层、批量归一化(BN和ReLU 组成。然后,我们采用联合注意力模块JA (·),其中包括空间注意力和通道注意力,以突出空间和通道域中值得注意的部分。因此,给定HF特征
(
f
k
r
)
H
F
{\left( {f_k^r} \right)_{HF}}
(fkr)HF ,HF 注意力图
p
k
h
p_k^h
pkh的公式如下:
p k h = J A ( R e s B ( ( f k r ) H F ) ) p_k^h = JA(ResB({(f_k^r)_{HF}})) pkh=JA(ResB((fkr)HF))
其中ResB (·)表示带有BN的残差块。
低频注意力模块:低频分量更关注全局信息,例如颜色分布和照明,这不可避免地导致不可避免地存在冗余分量和轻微扰动。为了解决这些问题,我们设计了一种全面的归一化策略来抑制不需要的伪影,并为实例级别和通道维度的注意力计算提供更清晰的全局信息,这可以从全局角度突出显示那些异常区域。具体来说,该模块将分解后的 LF 特征
(
f
k
r
)
L
F
{\left( {f_k^r} \right)_{LF}}
(fkr)LF作为输入,输出
p
k
l
=
J
A
(
P
N
(
R
e
s
I
N
(
(
f
k
r
)
L
F
)
)
)
p_k^l = JA\left( {PN\left( {{{\rm Re}} {\rm{sIN}}\left( {{{\left( {f_k^r} \right)}_{LF}}} \right)} \right)} \right)
pkl=JA(PN(ResIN((fkr)LF))),其中ResIN(·)、PN(·)和JA(·)分别表示实例归一化约束残差块、位置归一化和联合注意力。
基于引导的特征聚合模块(GFA):
提出GFA来集成多尺度分解特征。与现有的仅使用串联的基于启发式的特征融合策略不同。
其中down(.),sw和i是下采样操作,局部窗口和像素点i,
{
σ
w
,
μ
w
}
\left\{ {{\sigma _w},{\mu _w}} \right\}
{σw,μw}是窗口 中像素的线性聚合系数,可以通过优化以下目标函数获得:
在频率特定注意力的保证下,我们的聚合特征可以通过结合丰富的空间细节和深层语义信息来强调比其他特征更具辨别力的特征,从而更好地满足COD任务,聚合
f
k
−
1
l
f_{k - 1}^l
fk−1l和
f
k
−
1
h
f_{k - 1}^h
fk−1h的计算相似。
3.3 面向分割的边缘辅助解码器(SED)
3.3.1 RRS(Reversible Re-calibration Segmentation Module)可逆重新校准分割模块
rp(.)和rv(.)表示重复和反向
3.3.2 受ODE启发的边缘重建模块
与传统的残差网络结构相比,传统的残差网络结构可以被视为具有不可忽略的截断误差的ODE的一阶欧拉离散化近似,所提出的OER模块采用了更高阶的ODE求解器,具体来说,二阶Runge-Kutte(RK2),为边缘信息处理提供更准确的数值解。
4.总结
为了解决IS和ED挑战,在本文中,我们提出了COD的FEDER模型,具体来说,使用可学习的小波将特征分解为不同的频带,并过滤掉信息量最大的频带,以使用HFA、LFA和GFA模块挖掘微妙的判别特征,从而解决IS挑战。依此,我们建议使用OER模块学习辅助边缘重建任务来生成完整的边缘。学习这个辅助任务和 COD 任务有助于生成具有准确对象边界的精确分割结果,从而减轻 ED 挑战。大量的实验验证了我们的 FEDER 模型与其他 SOTA 相比的优越性。