【论文阅读笔记】Context-aware cross-level fusion network for camouflaged object detection

1. 介绍

Context-aware cross-level fusion network for camouflaged object detection
基于上下文感知的跨层融合网络的视频目标检测
IJCAI 2021

本文是旧版
Paper Code

(此外2022年 发表在IEEE TCSVT 一个改进版本 Paper Code

2.摘要

由于目标与其周围环境之间的低边界对比度,所以伪装目标检测(COD)是一项具有挑战性的任务。此外,被包裹物体的外观变化很大,例如,对象的大小和形状,加重准确COD的困难。在本文中,提出了一种新的上下文感知跨级融合网络(C2F-Net),以解决具有挑战性的COD任务。具体来说,提出了一个注意力诱导的跨层次融合模块(ACFM)集成的多层次功能与信息的注意力系数。融合的功能,然后馈送到建议的双分支全局上下文模块(DGCM),产生多尺度的特征表示,利用丰富的全局上下文信息。在C2F-Net中,这两个模块使用级联方式在高级特征上进行。

Keywords:COD伪装目标检测、上下文感知、注意力诱导

3.Introduction

识别和分割图像中的隐藏目标为目标的隐藏目标检测(COD)是一个非常热门的研究课题。然而,由于伪装的特殊性,精确的COD是相当困难的。更具体地,由于伪装,对象与其周围环境之间的边界对比度极低,导致识别/分割该对象的显著困难。此外,被捕获的对象,大多数是野生动物,通常具有各种各样的外观,例如,尺寸和形状,这进一步加剧了准确COD的困难。

目前已经构建了许多COD数据集来训练深度学习模型。例如,Le等人创建了第一个COD数据集,称为CAMO,由2,500张图像组成。然而,由于样本量有限,CAMO不足以充分利用深度学习模型。最近,Fan等人构建了COD 10 K,这是第一个由10,000张图像组成的大规模COD数据集,考虑了真实的自然环境中各种具有挑战性的伪装属性。除了数据集之外,这两项工作还从深度学习模型方面为COD做出了贡献。Le等人提出了一个分支网络,它对图像是否包含隐藏对象进行分类,然后将此信息集成到COD任务中。Fan等人利用捕食者先搜索后识别的原理,设计了搜索模块,用于识别被捕食对象的大致区域,然后利用识别模块对被捕食对象进行精确分割。

背景信息在对象分割任务中起着至关重要的作用,因为它具有增强特征表示以提高性能的巨大能力。一直致力于丰富背景信息。例如,PSPNet通过在每个像素周围建立多尺度表示来获得丰富的上下文信息。还有采用不同的扩张卷积构造ASPP来实现上下文信息获取。DANet利用非局部模块以获取相关信息。CCNet通过循环交叉注意模块获得密集的上下文信息。在显著对象检测领域,有工作利用多尺度上下文感知特征提取模块来允许多级特征图获得丰富的上下文信息。PoolNet 配备了金字塔池模块,采用全局引导模块来获得不同特征层的潜在显著目标的位置信息。GCFANet 利用全局上下文流模块将包含全局语义的特征转移到不同阶段的特征映射,以提高突出对象检测的完整性。LCANet 自适应地将局部区域上下文和全局场景上下文集成在由粗到细的结构中以增强局部上下文特征。

尽管现有方法在从相对简单的场景中检测单个被遮挡对象方面已经显示出有希望的性能,但是对于许多具有挑战性的情况,当存在遮挡或遮挡对象的边界不可定义时,当存在多个重叠对象时,它们无法准确地识别重叠对象的边界。这些挑战可以通过显著大的感受野来解决,这为准确的COD提供了丰富的上下文信息。此外,如何有效融合跨层特征也对COD的成功起着至关重要的作用。然而,现有的工作通常忽略了这两个关键因素的重要性。因此,非常需要一个统一的COD框架,共同考虑丰富的上下文信息和有效的跨级别特征融合。

为此,本文提出了上下文感知跨级融合网络(C2F-Net),这是一种用于精确COD的新型深度学习模型。在C2F-Net中,首先利用注意力诱导跨层融合模块(ACFM)对主干网中提取的跨层特征进行融合,实现了特征与多尺度通道注意力(MSCA)组件中线索的融合。更具体地说,ACFM涉及三个主要步骤,包括(i)从多层次特征计算注意力系数,(ii)用注意力系数进行特征细化,以及(iii)融合特征的特征集成。随后,提出了一个双分支全局上下文模块(DGCM),利用丰富的上下文信息融合的功能。DGCM将输入特征转换为具有两个并行分支的多尺度特征,使用MSCA组件计算注意力系数,并在注意力系数的指导下对特征进行集成。多个ACFM和DGCM以级联方式组织在两个阶段,从高级别到低级别。最终的DGCM预测一个粗略的分割图的对象(S)。

4.网络主体

在这里插入图片描述
C2FNet,采用Res2Net50提取五层特征 fi(i = 1,2,…,5),然后采用感受野块RFB来扩展感受野,以捕获特定层中更丰富的特征,这里采用【Res2net: A new multi-scale backbone architecture】中同样的设置。在此基础上,增加了一个注意力诱导的跨层次融合模块(ACFM),以集成多尺度功能,和一个双分支全局上下文模块(DGCM),挖掘融合功能内的多尺度上下文信息。45层高级特征经过感受野扩展之后,进入跨层次融合模块ACFM融合,再经过双分支全局上下文模块DGCM挖掘信息,然后与3层经过感受野扩展的特征入ACFM融合,再经过DGCM挖掘,得到最后的预测结果。

RFB感受野
RFB分量包含五个分支 bk(k = 1,2,…,5)。在每个分支中,第一卷积层具有1x1的维度,以将信道大小减少到64。这之后的两层是(2k−1)×(2k−1)卷积层和3×3卷积层,当k > 2时,具有特定的膨胀率(2k − 1)。前四个分支被连接起来,然后使用1 × 1卷积运算将它们的信道大小减少到64。然后,添加第五个分支,并将整个模块馈送到ReLU激活函数以获得最终特征。

Attention-induced Cross-level Fusion Module注意力诱导跨层融合模块
在这里插入图片描述
不同类型的被摄物体之间存在着天然的差异。此外,由于观察距离和与周围环境的相对位置,类似的被摄物体的大小也可能有很大差异。换句话说,对于具有(一个或多个)重叠对象的捕获图像,(一个或多个)重叠对象的比例经常变化。为了解决这些挑战,提出了一种通过引入多尺度通道注意力(MSCA)的ACFM机制,以有效地融合跨级别的功能,它可以利用多尺度信息,以减轻规模的变化。具有更高空间分辨率的低级特征比高级特征需要更多的计算资源,但对深度集成模型的性能贡献较小。受此观察的启发,只在高级功能中执行ACFM。
具体来说,我们将fi(i = 3,4,5)称为高级特征,跨级融合过程可以描述如下:
在这里插入图片描述
M表示MSCA;
总体上,它为了融合跨层特征。对于高层特征Fb,首先上采样两次到与低层特征Fa一样的尺度,然后与Fa相加,然后经过MSCA处理,得到的特征与Fa相乘,取反后和上采样后的Fb相乘,得到的两个乘的结果再相加,然后经过一层3 × 3卷积层,然后进行批量归一化和ReLU激活函数。最后,得到跨层融合特征F。

MSCA:多尺度通道注意力模块。MSCA对不同尺度目标具有较强的适应性,它基于双分支结构,其中一个分支使用全局平均池化获取全局上下文,强调全局分布的大对象;另一个分支保持原有特征尺寸,获取局部上下文,避免小对象被忽略。
对于输入的X,就是它有两个分支,一个强调全局信息,强调大对象,另一个强调局部信息,强调小对象。
全局信息分支:先经过全局平均池化,再逐点卷积,经过ReLu激活函数,再逐点卷积;
局部信息分支:先经过逐点卷积,再经过ReLu激活函数,再逐点卷积。
两个分支得到的信息再相加,然后经过Sigmoid激活得到多尺度通道注意力的输出W。
在这里插入图片描述
Dual-branch Global Context Module双分支全局上下文模块
在这里插入图片描述

采用ACFM融合多尺度特征在不同的层,它引入了多尺度通道的注意力机制,以获得信息的注意融合功能。此外,全局上下文信息对于提高隐藏对象检测性能至关重要。因此,提出了一个双分支全局上下文模块(DGCM),利用丰富的全局上下文信息融合的跨级别功能。

具体地说,ACFM的输出 F ∈ R W × H × C F ∈ R^{W×H×C} FRW×H×C分别通过卷积运算和平均池化被馈送到两个分支。可以得到子特征 F c ∈ R W × H × C F_c ∈ R^{W×H×C} FcRW×H×C F p ∈ R W / 2 × H / 2 × C F_p ∈ R^{W/2 × H/2 ×C} FpRW/2×H/2×C。为了学习多尺度基于注意力的特征表示,Fc和Fp首先送入MSCA,然后将MSCA的输出与相应的特征(Fc或Fp)采用逐元素乘法,得到 F c m ∈ R W × H × C F_{cm} ∈ R^{W×H×C} FcmRW×H×C F p m ∈ R W / 2 × H / 2 × C F_{pm} ∈ R^{W/2 × H/2 ×C} FpmRW/2×H/2×C。之后,直接融合来自两个分支的特征,使用加法运算获得Fcpm。最后,利用一个残差结构将F和Fcpm融合,得到F’。上述过程可以描述如下:
在这里插入图片描述
其中C、P、M和U分别表示卷积、平均池化、MSCA和上采样操作。值得注意的是,所提出的DGCM用于增强ACFM的融合特征。

损失函数

二进制交叉熵损失(LBCE)用于独立地计算每个像素的损失,以形成对网络的像素限制。为了弥补其忽略全局结构的不足,引入IoU损失(LIoU),关注全局结构,形成对网络的全局约束。这些损失对所有像素同等对待,忽略像素之间的差异。基于此,将上述两种损失改进为加权二进制交叉熵损失( L B C E w L^w_{BCE} LBCEw)和IoU损失( L I o U w L^w_{IoU} LIoUw)。通过计算中心像素与其周围环境的差异,为每个像素分配不同的权值,使硬像素得到更多的关注。总之,我们的模型的损失函数被定义为: L = L I o U w + L B C E w L = L^w_{ IoU} + L^w_{BCE} L=LIoUw+LBCEw。网络预测结果P被上采样以具有与地面实况映射G相同的大小。因此,所提出的模型的总损失可以用公式表示为:L_{total} = L(G,P)。

5.结果

在这里插入图片描述
在这里插入图片描述

  • 18
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值