目标检测论文学习——CFnet

论文:https://arxiv.org/pdf/2302.06052v1.pdf
代码:GitHub - zhanggang001/CEDNet: CEDNet: A Cascade Encoder-Decoder Network for Dense Prediction

摘要

        多尺度特征对于密集预测任务至关重要,包括目标检测、实例分割和语义分割。现有的最先进的方法通常是首先通过分类主干提取多尺度特征,然后通过轻量级模块(例如FPN中的融合模块)融合这些特征。然而,我们认为,通过这种范式可能不足以融合多尺度特征,因为与重型分类主干相比,为特征融合分配的参数有限。为了解决这个问题,我们提出了一种新的结构,称为级联融合网络(CFNet),用于密集预测。除了用于提取初始高分辨率特征的干和几个块外,我们还引入了几个级联阶段来生成CFNet中的多尺度特征。每个阶段包括一个用于特征提取的子主干和一个用于特征集成的极其轻量级的过渡块。这样的设计使得整个主干的大部分参数能够更深入、更有效地融合特征。在目标检测、实例分割和语义分割方面的大量实验验证了CFNet的有效性。 

1.引言

       在过去的几年中,卷积神经网络(cnn)和基于变压器的网络在许多计算机视觉任务中取得了可喜的成果,包括图像分类、目标检测、语义分割等。对于图像分类任务,最受欢迎的cnn和最近发展的基于变压器的网络[6-9]在架构设计上通常采用顺序的方式,即逐渐减小特征映射的空间大小,并基于最粗尺度的特征进行预测。然而,对于许多密集的预测任务,如对象检测和实例分割,需要多尺度特征来处理不同尺度的对象。获取多尺度特征并对其进行有效整合是这些任务成功的关键。

特征金字塔网络(Feature pyramid network, FPN)及其变体是广泛应用于多尺度特征提取和融合的模型。如下图(a)所示,这些模型通常由用于提取多尺度特征的重型分类骨干和轻型分类骨干组成 用于融合这些特性的融合模块。然而,我们认为 使用这样的范例可能不足以进行融合 多尺度特征,因为参数分配为 与重分类算法相比,特征融合具有局限性 对骨干。例如,考虑构建FPN 基于骨干ConvNeXt-S[5],参数-的比值 融合模块到骨干网的距离小于 10%。我们假设分配更大比例的pa- 特征融合参数可以获得更好的性能。

2.相关工作

2.1 用于密集预测的主干设计

        在CFNet中提取高分辨率特征的基础上,引入多个级联阶段对多尺度特征进行迭代提取和集成。

2.2. 多尺度特征融合

        以往的方法均依赖于重型分类主干提取多尺度特征,然后使用轻型融合模块对特征进行融合。但是,与分类骨干相比,融合模块的参数是有限的。相反,我们提出了一个非常轻量级的过渡块,并将其插入主干。这样,过渡块之后的各个阶段都可以用来融合集成的多尺度特征。

3.Method

3.1 Overall architecture(总体架构)

      CFNet体系结构的概述如下图所示

 

       将空间大小为H ×W的RGB图像输入到一个茎和N个连续的块中,提取空间大小为h4 × w4的高分辨率特征。该干由两个3×3卷积组成,每个卷积的步长为2,每个卷积后面都有一个LayerNorm层和一个GELU单元。CFNet中的块可以是以前作品中提出的任何设计,例如ResNet bottleneck,Con-vNeXt块,Swin Transformer块等。

PS:  1.LayerNorm:BN层是在每个维度上统计所有样本的值,计算均值和方差。而LN是在每个样本上统计所有维度的值,计算均值和方差。

       2.GELU——激活函数。其函数图像(左)及其导数图像(右)如下图所示:

        在被馈送到M级联级之前,提取的高分辨率特征通过2×2卷积降采样,步幅为2。所有阶段共享相同的结构,但可能有不同的大小,即不同数量的块。具体来说,每个阶段由一个子主干和一个非常轻量级的过渡块组成,用于提取和整合不同规模的特征。在这里,我们将每个阶段中的块组定义为用于转换相同尺度特征的块的联合。N1 I, n2 I, n3 I分别表示第I阶段的三个区块组中包含的区块数量。在每个阶段的最后一个块组中,应用焦点块。关于过渡块和焦点块的更多细节分别在3.2节和3.3节中介绍。值得注意的是,每个阶段的输出都有P3、P4、P5,步幅分别为8、16、32,但只有P3被送入后期。最后,将最后一阶段输出的融合特征P3、P4和P5用于密集预测任务。

3.2. Transition block(过渡块)

        引入过渡块,整合各阶段不同尺度的特征。为了避免引入过多的额外计算成本,提出三种简单的设计,如下图所示。

Add--融合首先减少了特征C4和C5的通道数,使C3的通道数与1×1卷积对齐。在进行元素加法之前,使用双线性插值操作来对齐特征的空间大小。

Concat--融合直接对特征C4和C5进行上采样,以对齐C3的空间大小,然后将这些特征连接起来,随后进行1×1卷积以减少通道数。

Sequentially Add--融合上样并顺序组合不同尺度的特征。该设计类似于FPN中的融合模块,不同之处在于没有额外的卷积来变换求和特征。以上三种设计在实验中均表现良好(对比见4.5节表8),其中“sequential Add”融合效果最好。我们在CFNet变体中默认采用这种设计(参见第3.4节)。

3.3 Focal block(焦点块)

      对于密集预测任务,如何处理各种尺度的对象一直是一个很大的挑战。一种广泛使用的解决方案是生成不同分辨率的特征。例如,在一级检测器中,通常生成步长为8、16、32、64、128的特征来检测相应尺度的物体。用于产生大跨幅特征的神经元通常具有较大的接受野。在CFNet的每个阶段,有三个块组来提取步长为8,16,32的特征。理想情况下,我们可以提取其他两个分辨率特征来集成更多的特征尺度,比如FPN变体。然而,它会引入更多的参数,因为随着特征空间大小的缩小,后期群体的通道数逐渐增大。因此,我们提出用焦点阻滞来扩大每个阶段最后一个阻滞组的神经元的接受野作为一种替代方法。

      焦点块的两种设计如下图所示。

       在ConvNeXt块和Swin Transformer块中引入了扩展深度卷积和两个跳过连接。因此,焦点块可以同时合并细粒度的本地交互和粗粒度的全局交互(焦点块名称的来源)。利用全局注意力或大卷积核来扩大感受野,近年来得到了广泛的研究。尽管取得了令人满意的结果,但由于输入图像大小较大,在将这些操作应用于密集预测任务时,通常会引入大量的计算成本和内存开销。相比之下,拟议的焦点块引入了边际额外成本(见第4.5节中的表9进行比较)。

3.4. Architecture variants(结构变量) 

       我们构建了三个CFNet变体,即CFNet- t (Swin)、CFNet- t (NeXt)和CFNet- s (NeXt)。T和S分别是tiny和small这两个单词的缩写,表示模型的尺寸。第一个使用Swin Transformer块和焦点Swin块。另外两个使用ConvNeXt块和focal NeXt块。每个CFNet变体的详细配置如下表所示。

       CFNet-T和CFNet-S的阶段数分别为3和4。尽管具有不同配置的不同阶段可能获得更好的性能,但为了简单起见,我们为所有阶段设置了相同的配置。所有焦块的膨胀率r默认为3。由于计算资源的限制,我们在本文中没有考虑更大的CFNet变体。

4. 实验

4.1 基于ImageNet-1K的图像分类

          CFNet-T (Swin)、CFNet-T (NeXt)、CFNetS (NeXt)分别优于基线swun - t、ConvNeXt-T、ConvNeXt-S 1.3%、1.0%、0.8%。

4.2 在COCO数据集上的目标检测

        所提出的CFNet模型很容易过拟合训练数据。为了充分挖掘CFNet模型的能力,我们在以下的训练过程中使用了大规模抖动,即我们以比例比范围[0.1,2.0]随机调整输入图像的大小,然后裁剪出一块1024×1024。我们还使用了复制-粘贴数据增强方法,但仅使用方框注释。为了公平比较,我们使用相同的数据增量重新训练了所有基线模型。

CFNet-T (NeXt)甚至比基于三种检测器的ConvNeXt-T分别实现了2.9、2.8和1.7个box AP的改进。当放大到更大的CFNet- s (NeXt)模型时,基于强大的级联掩模R-CNN, CFNet仍然比其基准性能高出1.6盒AP和1.3mak AP。值得注意的是,CFNet中使用的块可以自由地替换为以前作品中提出的任何设计。例如,通过使用更强大的CSWin Transformer模块构建CFNet-T,它实现了基于mask R-CNN的50.4 box AP和45.2 mask AP,明显优于CSWin- t。

与FPN及其变体的比较

        表5的结果显示,CFNet在保持相似(训练)内存成本和竞争推理速度(见度量FPS,越高越好)的情况下,显著优于FPN及其变体,这表明CFNet在提取多尺度特征方面具有优势。

4.3 在ADE20k上的语义分割 

4.4 消融实验 

 5.结论

       目前广泛使用的FPN及其变体通常使用轻量级融合模块来融合由重型分类主干提取的多尺度特征,而CFNet引入了多个级联阶段来学习基于提取的高分辨率特征的多尺度表征。通过在主干网中插入特征集成操作,可以利用整个主干网的很大比例来有效地融合多尺度特征。

  • 35
    点赞
  • 55
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值