CTA-Net: 一种改进多尺度特征提取的CNN-Transformer聚合网络

晚上闲下来的时间读了一下复旦大学提出的CTA-Net,这是一个结合了卷积神经网络和视觉Transformer的新型网络架构,通过轻量级多尺度特征融合和反向重构卷积变体模块,有效提升了小规模数据集上的视觉识别性能。CTA-Net在性能、参数数量和计算效率方面均展现出优越表现,旨在改进小规模数据集(少于100,000个样本)上的多尺度特征提取。主要内容包括:

  1. 背景与动机

    • CNN擅长局部特征提取,但受限于小卷积核的感受野,难以捕捉全局情境信息。

    • ViT通过自注意力机制捕捉长程依赖关系,但在利用局部和多尺度特征方面存在挑战。

    • 现有方法在聚合CNN和ViT时效率低下,且难以在小规模数据集上表现良好。

  2. CTA-Net架构

    • 反向重构CNN变体(RRCV)模块:将CNN操作集成到Transformer架构中,增强局部特征提取。

    • 轻量级多尺度特征融合多头自注意力(LMF-MHSA)模块:在减少参数的同时有效利用多尺度特征,提高模型效率。

  3. 实验与结果

    • 在四个小规模数据集(CIFAR-10、CIFAR-100、APTOS2019、RFMiD2020)上进行了广泛实验。

    • CTA-Net在TOP-1准确率、参数数量和计算效率(FLOPs)方面优于现有的CNN变体、ViT变体和ViT聚合模型。

    • 消融研究表明,RRCV和LMF-MHSA模块显著提升了模型性能和效率。

  4. 结论

    • CTA-Net通过集成CNN和ViT的优势,有效捕捉局部和全局特征,提高了小规模数据集上的特征表示能力。

    • 实验结果表明,CTA-Net在各种视觉任务中表现出色,为实际应用提供了一个高效且轻量级的解决方案。

CTA-Net通过创新模块的设计,成功解决了CNN和ViT在特征融合和计算效率方面的挑战,为小规模数据集上的视觉任务提供了一个强大的聚合网络。这里是自己论文阅读记录,感兴趣的话可以参考一下,如果想要阅读原文,可以来这里,如下所示:

摘要

卷积神经网络(CNN)和视觉Transformer(ViT)已成为计算机视觉中局部和全局特征提取的关键技术。然而,现有方法在聚合这些架构时往往效率低下。为此,开发了CNN-Transformer聚合网络(CTA-Net)。CTA-Net结合了CNN和ViT,其中Transformer捕捉长程依赖关系,CNN提取局部特征。这种集成能够高效处理详细的局部和更广泛的情境信息。CTA-Net引入了轻量级多尺度特征融合多头自注意力(LMF-MHSA)模块,以减少参数实现有效的多尺度特征集成。此外,反向重构CNN变体(RRCV)模块增强了CNN在Transformer架构中的嵌入。在少于100,000个样本的小规模数据集上的广泛实验表明,CTA-Net实现了卓越的性能(TOP-1准确率86.76%)、更少的参数(20.32M)和更高的效率(FLOPs 2.83B),成为小规模数据集(少于100,000个样本)视觉任务的高效轻量级解决方案。

引言

卷积神经网络(CNN)由于其强大的特征提取能力,在计算机视觉领域取得了显著进展。通过使用卷积层,CNN能够高效地捕捉局部空间层次结构,在各种图像分类任务中取得了最先进的性能。尽管CNN在局部特征提取方面表现出色,但其固有的局限性在于小卷积核的受限感受野,这可能阻碍全局情境信息的捕捉。为了解决这一局限性,研究人员通常会引入额外的机制或层来捕捉更全面的视觉情境。

图1:顶部:ViT使用纯Transformer块。中部:最先进的ViT变体使用CNN分支和Transformer分支。底部:CTA-Net使用CNN-Transformer聚合网络,将CNN集成到Transformer中,充分利用两者的优势。

基于自注意力的Transformer,如视觉Transformer(ViT),因其能够建模长程依赖关系而成为CNN的有力替代方案。ViT将图像分割成块,将其转换为类似于自然语言处理(NLP)中的词标记的序列。这些块通过位置嵌入补充后,被送入堆叠的Transformer块中,以建模全局关系并提取分类特征。自注意力机制是ViT的核心组件,使网络能够捕捉图像中的广泛空间依赖关系。

然而,现有的基于Transformer的模型在利用局部和多尺度特征方面面临挑战,这对于许多视觉任务至关重要。构建基于Transformer的架构时,主要存在两个问题:首先,尽管ViT有效地捕捉了图像块之间的长程依赖关系,但它可能忽略了每个块内的空间局部信息——这是CNN擅长的领域。其次,ViT中标记的统一大小限制了模型利用标记间多尺度关系的能力,这对于各种下游任务特别有益。

ViT和CNN架构各自带来了不同的优势。当有效集成时,它们可以利用各自的优势来提高模型性能。尽管ViT在大数据集上表现出捕捉全局表示的鲁棒性,但由于其依赖多层感知(MLP)层,容易在小规模数据集(少于100,000个样本)上过拟合。相反,CNN擅长捕捉局部表示,并在小规模数据集上表现出鲁棒性能,但在处理更大数据集时可能不如ViT高效。

本文提出了一种新方法,在不增加不必要计算的情况下,集成CNN和ViT的互补优势。如图1所示,提出的CNN-Transformer聚合网络(CTA-Net)通过将CNN作为核心组件融入ViT,增强了ViT的能力,弥补了纯Transformer模型的局限性。

总结起来,本文的主要贡献如下:

  • 反向重构CNN变体(RRCV)模块无缝集成到Transformer架构中,结合了CNN的局部特征提取能力和ViT的全局情境理解。

  • 轻量级多尺度特征融合多头自注意力(LMF-MHSA)模块在保持较少参数的同时有效利用多尺度特征,增强了模型在资源受限环境中的效率和性能。

相关工作

CNN和Transformer聚合网络

CNN和ViT的聚合已成为当代研究的关键焦点,研究人员探索了CNN的局部特征提取能力与ViT的全局情境理解之间的协同组合。各种方法被开发出来,以融合这些优势,例如Swin Transformer使用窗口注意力机制进行隐式局部和全局特征集成。其他方法则引入显式融合结构,促进标记或块之间的信息交换,创建更统一的特征表示。

在典型的聚合架构中,CNN和Transformer被组织成独立学习后再集成的双分支。例如,Dual-ViT使用两条不同的路径来捕捉全局和局部信息。ECT引入融合块,双向连接CNN和Transformer分支之间的中间特征,增强各自的优势。SCT-Net提出了一种双分支架构,其中CNN和Transformer特征被对齐以编码丰富的语义信息和空间细节,Transformer在推理过程中利用这些信息。Crossformer++扩展了这一概念,采用受CNN启发的金字塔结构,分层扩展通道容量同时减少空间分辨率。

尽管这些进展显著,但这些架构通常将CNN和Transformer视为相互作用较浅的独立模块,需要融合块或其他结构来辅助特征集成。这种分离可能阻碍两者之间的信息流动,导致信息损失。此外,对于特征学习有限的小规模数据集,这些融合架构可能限制全面特征学习。这一局限性在需要详细局部特征和全面全局情境的任务中尤为突出,如图像分类。

多头自注意力机制

多头自注意力(MHSA)机制对于捕捉空间位置之间的全局依赖关系至关重要,显著提升了Transformer在视觉任务中的性能。然而,许多MHSA机制依赖于单尺度学习过程,限制了模型捕捉多尺度特征的能力。这一局限性在需要对全局情境和局部特征进行细致理解的任务中尤为明显。例如,单尺度MHSA模型往往无法利用数据中不同层次的粒度,导致特征表示次优,影响图像分类或目标检测等任务的性能。

最近的进展旨在通过开发多尺度MHSA模型来解决这些缺陷,Cross-ViT引入了一种创新架构,编码和融合多尺度特征,增强了模型利用输入数据中各种细节的能力。SBCFormer通过引入新的注意力机制,在单板计算机上实现了高准确率和快速计算。

LCV模型通过结合CNN的局部特征提取和ViT的全局情境理解,解决了领域适应挑战。然而,面对特征有限的小规模数据集时,性能并不理想。

这些复杂性突显了设计高效Transformer架构的持续挑战,这些架构能够有效捕捉多尺度特征,而不会产生高昂的计算成本。解决这一问题仍然是研究的关键领域,特别是在涉及小规模数据集的应用中,全面特征学习至关重要。

方法

本节简要概述了提出的CTA-Net网络架构,随后详细介绍了其组件。

图2:(a) 展示了CTA-Net的整体架构,突出了中央的CNN-Transformer(CT)块,该块集成了CNN和Transformer,以增强特征提取。(b1) 描绘了LMF-MHSA模块,展示了轻量级多尺度特征融合多头自注意力机制,该机制在减少计算复杂度的同时高效学习多尺度特征。(b2) 提供了多尺度卷积操作的详细视图,展示了如何使用不同卷积核大小从输入中提取多尺度特征。(c1) 展示了RRCV模块,即反向重构CNN变体模块,设计用于将CNN操作嵌入到Transformer架构中,利用CNN和Transformer的优势。(c2) 提供了重构操作过程的详细视图,突出了CNN提取的局部特征如何无缝集成到Transformer的全局情境中。

总体架构

目的是构建一个利用CNN和Transformer优势的聚合网络。如图2所示,CTA-Net旨在集成CNN和ViT的优势。该架构包含两个关键模块:RRCV和LMF-MHSA。这些模块确保局部和全局特征的无缝融合,同时保持计算效率。

在提出的CTA-Net中,输入图像被分割成块,转换为标记序列。这些块被嵌入到高维空间中,类似于ViT中的标记嵌入过程。在初始层归一化(LNorm)模块之后,LMF-MHSA模块取代了传统的多头自注意力(MHSA)机制,有效处理多尺度特征融合,同时降低计算复杂度和内存使用。这是通过考虑输入标记的不同尺度来实现的,从而减少了与传统MHSA相比的计算负载。位于第二个LNorm模块和Transformer块中的多层感知器(MLP)模块之前,RRCV模块将CNN操作集成到Transformer中。该模块通过卷积操作增强局部特征提取,并重构这些特征以与Transformer的全局情境融合,确保CNN捕捉的局部细节在Transformer架构中得到有效利用。标记序列随后通过多个Transformer块,每个块由LMF-MHSA和RRCV模块组成,确保在局部和全局层次上全面提取特征,充分利用CNN和Transformer的优势。最后,标记表示被送入分类头,执行所需的视觉任务,如图像分类。通过完全集成CNN和Transformer,CTA-Net有效捕捉局部和全局特征,实现更全面和准确的特征表示,减少计算复杂度,提高性能。在基准数据集上的广泛实验表明,CTA-Net在各种视觉任务中优于现有方法,为实际应用提供了一个强大且实用的解决方案。

反向重构CNN变体

CNN在各种计算机视觉任务中表现出色,通过有效捕捉相邻像素之间的局部特征。在其演变过程中,出现了许多变体架构,如ResNet和深度可分离卷积。这些创新解决了深度网络固有的特定挑战,如随着深度增加而出现的退化问题,以及减少传统卷积网络通常伴随的过度参数化。

通过避免需要独立的融合块,所提出的架构促进了CNN和ViT组件的无缝融合,确保特征提取和集成在没有伴随中间处理阶段的信息损失的情况下进行。这种无缝融合导致更连贯和高效的模型架构,有效利用CNN和ViT的优势,在视觉识别任务中实现卓越性能。

CNN变体 CNN变体模块旨在增强ViT捕捉局部空间细节的能力,否则由于其基于块的方法而受到限制。通过将ViT向量重构为特征图,该模块实现了有效的局部信息提取,随后将这些特征与ViT的全局情境集成。为了验证局部特征提取的有效性,本文研究了三种特定的CNN变体:标准CNN、残差模块和深度可分离卷积模块。标准CNN作为基线,展示了传统卷积方法在提取局部特征方面的有效性。残差模块因其能够缓解深度网络中的梯度消失问题,从而增强模型的特征学习能力而被选中。深度可分离卷积模块因其减少参数数量同时保持特征提取准确性而被采用,这在资源受限环境中至关重要。

这些变体允许系统评估不同的卷积策略如何优化Transformer框架中局部和全局特征的集成。

轻量级多尺度特征融合多头自注意力

LMF-MHSA模块解决了现代计算机视觉任务中的计算复杂性和多尺度特征提取挑战。传统的MHSA机制资源密集,难以捕捉多尺度特征,导致目标检测次优。提出的LMF-MHSA如图2(b1)所示,显著降低了计算成本,同时通过多尺度融合机制增强了特征提取。

多尺度特征融合 如图2(b2)所示,多尺度特征融合层用于从输入中提取不同尺度的特征,以提高模型对各种尺度特征的敏感性。给定输入特征图X,通过使用不同卷积核大小提取多尺度特征:

轻量级多头自注意力机制 LMF-MHSA机制引入了几种创新方法,以提高计算效率同时保持模型性能:

深度可分离卷积 该操作将标准卷积分解为深度和点步骤,显著减少了参数数量和计算负载。一个具有参数M×N×D×D的传统卷积层被转换为更高效的结构,具有M×D×D+M×N参数。

查询、键和值线性投影 为了优化资源使用,1×11×1卷积取代了传统的矩阵乘法,用于转换查询、键和值矩阵,确保数据完整性并减少计算成本。

注意力计算和投影 核心注意力机制定义为:

通过从初始卷积细化到优化的注意力计算的结构化过程,LMF-MHSA机制有效捕捉局部和全局特征。这使其特别适用于涉及小规模数据集(少于100,000个样本)和受限计算资源的任务。

实验

本节概述了为评估提出的CTA-Net及其各组件的有效性而进行的一系列综合实验。在基准数据集上与最先进方法进行了比较评估。首先介绍数据集和实现细节,随后进行一系列消融研究以验证各模块的性能。最后,比较实验展示了CTA-Net相对于现有最先进方法的优越性。

数据集和实现细节

数据集 ViT及其变体在大规模数据集上预训练时表现良好,但在没有预训练的小规模数据集(少于100,000个样本)上表现不佳。相比之下,CNN在小规模数据集上表现良好,但ViT在处理小规模数据集时表现不佳。为了验证CTA-Net充分利用了两种架构的优势,在四个小规模数据集上评估了提出的CTA-Net。四个开源小规模数据集包括CIFAR-10、CIFAR-100、APTOS 2019盲检测(APTOS2019)和2020视网膜底片多疾病图像数据集(RFMiD2020)。数据集详情见附录A。为了增强训练数据的多样性,应用了一系列数据增强技术,包括随机裁剪、旋转、水平翻转和颜色抖动。

图3:CTA-Net相对于CNN变体、ViT变体和ViT聚合模型的改进。不同颜色的圆圈代表不同的模型。越靠近左下角,模型参数越少,效率越高。代表CTA-Net的红色圆圈最接近左下角,表明该模型最轻量且最高效。

实现细节 实验旨在评估CTA-Net的特征自学习能力以及CNN和Transformer组件的集成,未使用预训练权重。模型性能使用TOP-1准确率(TOP-1 Acc)作为分类准确率的指标进行评估,计算效率以每秒浮点运算次数(FLOPs)和参数数量(Params)衡量。所有实验在配备80 GB内存的NVIDIA Tesla A100 GPU上执行。

与最先进方法的比较

表1展示了CTA-Net在四个小规模数据集上的实验结果。与其他CNN变体和ViT变体模型相比,CTA-Net表现出色。如图3所示,CTA-Net以最少的参数和最高的效率取得了优异的结果。

与CNN变体模型的比较 实验评估涉及在四个小规模数据集上将CTA-Net与领先的CNN和ViT模型进行基准测试,详见表1。CTA-Net显著优于多个CNN变体。值得注意的是,在APTOS2019和RFMiD2020数据集上,CTA-Net分别比三个CNN变体的平均TOP-1准确率高3.67%和5.1%。在RFMiD2020数据集上,CTA-Net比ResNet34高出9.22%。这些结果突显了CTA-Net增强的特征学习能力,优化了参数体积(20.32M)和FLOPs(2.83B),使其比传统CNN架构更高效。

表1:与最先进方法在小规模数据集(少于100,000个样本)上的比较(指标:TOP-1准确率)

与ViT变体模型的比较 如表1所示,与最先进的ViT模型相比,CTA-Net表现出色,在四个数据集上的平均TOP-1 Acc分别提高了12.07%、3.856%、21.52%和12.93%。在CIFAR-10和CIFAR-100数据集上,CTA-Net的准确率分别比MIL-VT高出37.76%和24.93%,无需依赖大规模预训练权重。尽管CTA-Net在CIFAR-100数据集上的TOP-1 Acc略低于SwinT,但其FLOPs减少了5.87B,参数减少了29.24M,效率是SwinT的四倍。这些结果强调了CTA-Net的平衡方法,利用CNN和ViT的优势,以更少的参数和更高的效率实现高性能。

与ViT聚合模型的比较 表1展示了CTA-Net与各种ViT聚合模型的比较。CTA-Net在小型数据集上的TOP-1准确率平均提高了1.652%,优于ViT聚合模型。发现fastViT收敛非常缓慢。表1中四个小规模数据集上的TOP-1 Acc是在训练350个epoch后达到的,而其他模型仅训练了100个epoch。CTA-Net模型收敛更快,在相同训练周期内甚至在数据有限的情况下实现了更高的性能,展示了其强大的特征学习能力。尽管Dual-ViT在CIFAR-10上的TOP-1准确率略高于CTA-Net 0.18%,但CTA-Net的效率提高了47.59%,参数减少了26.42%,这对于资源受限环境至关重要。同样,尽管CrossF++/s在多epoch训练后在CIFAR-10上达到了90%的TOP-1准确率,但它需要更多的计算资源,这与性能和效率平衡的实际需求相冲突。此外,观察到复杂网络结构如LCV在小型CIFAR-10数据集上遇到挑战,在没有大规模预训练权重的情况下仅达到10%的TOP-1准确率(未在表1中显示)。这表明模型在从有限数据中学习特征时遇到困难。

与其他聚合模型相比,CTA-Net不仅提供了卓越的性能,而且在所有基线中保持了最低的参数数量(20.32M)和FLOPs(2.83B)。这种特征学习和模型部署的效率使CTA-Net成为涉及小规模数据集的应用的引人注目的选择,改进了多尺度特征提取并解决了聚合CNN和ViT架构的挑战。

消融研究

为了验证CTA-Net的有效性,进行了一系列消融研究,重点关注关键创新模块:RRCV模块和LMF-MHSA模块。目的是展示每个组件如何增强整体架构的性能,并确定集成CNN和Transformer组件的最佳配置。

表2:关键创新模块的有效性。指标为TOP-1准确率。第一行表示使用常见的ViT模型,第二行表示在此模型中添加我们提出的RRCV模块,第三行表示在第二行的基础上添加我们提出的LMF-MHSA模块,形成CTA-Net。

关键创新模块的有效性 如图2所示,RRCV和LMF-MHSA模块逐步添加到基线中,展示了它们的效果。RRCV模块的添加使小规模数据集上的TOP-1 Acc平均提高了6.115%,表明RRCV模块有效集成了CNN的优势,解决了ViT在小规模数据集上的性能限制。进一步,加入LMF-MHSA模块使四个数据集上的TOP-1 Acc平均增加了1.74%,FLOPs从2.48B增加到2.83B。这展示了LMF-MHSA在处理多尺度特征方面的效率。

表3:RRCV模块不同CNN变体的比较,指标为TOP-1准确率。D-W Conv指深度可分离卷积。

表4:LMF-MHSA模块与MHSA模块在模型参数和模型效率方面的比较。

不同CNN变体的比较 RRCV模块将CNN操作嵌入到Transformer架构中,以增强局部特征提取。测试了各种配置,如表3所示。残差卷积提供了与Transformer的最佳集成,最大化性能,详见附录B。这表明残差连接在保持梯度流和支持更深模型方面特别有益于局部特征提取。

轻量级多尺度特征融合多头自注意力模块的有效性 LMF-MHSA模块旨在解决参数和计算效率问题。表4比较了传统MHSA和LMF-MHSA在相同配置下的情况。LMF-MHSA模块显著减少了总参数数量至20.83M,降低了66%的模型复杂度。模型效率提高到2.83B,增加了79.42%。展示了其在保持模型性能的同时最小化资源消耗的能力。这种效率突显了该模块在轻量级架构设计中的作用,便于其在计算能力有限的环境中的应用。

多尺度卷积的必要性 LMF-MHSA模块采用多尺度卷积显著细化特征提取过程。通过使网络能够捕捉不同层次的粒度信息,这种方法对于需要识别复杂视觉模式的任务特别有效。如表5所示,进行了不同卷积核大小的实验,以验证多尺度卷积的重要性。尝试了单尺度卷积的实验。详细实验见附录C。结果表明,多尺度卷积结合各种核大小在小规模数据集上平均提高了1.765%的性能。这一证据突显了多尺度特征提取在增强模型跨多样视觉模式泛化能力中的关键作用。LMF-MHSA模块中多卷积核的集成促进了更鲁棒的特征表示,从而提升了CTA-Net架构的整体性能。

表5:单尺度卷积与多尺度卷积的比较,指标为TOP-1准确率。1SSC指1×1单尺度卷积,3SSC指3×3单尺度卷积,5SSC指5×5单尺度卷积,MSC指多尺度卷积。

结论

本文提出了CTA-Net,一种用于改进小规模数据集(少于100,000个样本)多尺度特征提取的CNN-Transformer聚合网络。CTA-Net解决了CNN和ViT特征融合不足和高模型复杂性的挑战。通过将CNN操作集成到ViT框架中,CTA-Net利用两种架构的优势,增强局部特征提取和全局信息处理,提高网络的表示能力。通过广泛的消融实验验证了反向重构CNN变体(RRCV)和轻量级多尺度特征融合多头自注意力(LMF-MHSA)模块。结果表明,CTA-Net在基线上实现了86.76%的卓越TOP-1 Acc,效率更高(FLOPs 2.83B)和更低复杂度(Params 20.32M)。CTA-Net是小规模数据集(少于100,000个样本)的合适聚合网络,推进视觉任务,并为未来的识别研究和应用提供可扩展的解决方案。

多尺度特征融合结合Transformer一种用于图像处理和计算机视觉任务的方法,它结合了多尺度特征融合和Transformer模型的优势。下面是该方法的介绍: 1. 多尺度特征融合:多尺度特征融合是指将不同尺度的特征图像进行融合,以获取更全局和更丰富的信息。常见的多尺度特征融合方法包括金字塔结构、多尺度卷积等。通过融合不同尺度的特征,可以提高模型对于不同尺度物体的感知能力。 2. Transformer模型:Transformer一种基于自注意力机制的神经网络模型,最初用于自然语言处理任务,后来也被应用于计算机视觉领域。Transformer模型通过自注意力机制来捕捉输入序列中不同位置之间的依赖关系,从而实现了并行计算和长距离依赖建模。 将多尺度特征融合和Transformer模型结合起来,可以在图像处理任务中获得更好的性能。具体步骤如下: 1. 首先,使用多尺度特征提取方法(如金字塔结构或多尺度卷积)从输入图像中提取不同尺度的特征图像。 2. 然后,将这些特征图像输入到Transformer模型中进行处理。在Transformer模型中,可以使用多个自注意力层来捕捉不同尺度特征之间的依赖关系。 3. 最后,将Transformer模型的输出进行融合,可以使用简单的加权平均或者其他融合策略来得到最终的特征表示。 通过多尺度特征融合结合Transformer,可以充分利用不同尺度的信息,并且能够建模全局和局部之间的依赖关系,从而提高图像处理任务的性能。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Together_CZ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值