今天要给大家分享一个极具潜力的创新点 ——多尺度注意力,凭借其显著的涨点效果与强大的启发性,近来在学术界热度持续飙升。
在目标检测领域,多尺度特征融合技术发挥着关键作用。将浅层网络细腻的细节特征,与深层网络富含语义的特征相结合,让小目标和遮挡目标无所遁形,显著提升检测性能。医学影像分割领域亦是如此,借助多尺度特征融合,能够精准捕捉病灶区域形态的多样性以及边界的模糊性,极大提高分割精度,为医疗诊断提供有力支持。
不过,当下这一领域仍存在诸多挑战。如何精心设计更为高效的特征融合策略,巧妙平衡不同尺度特征的贡献,同时有效降低计算复杂度,成为科研人员攻坚的重点与难点。而多尺度注意力机制的出现,为突破这些困境带来了曙光。它通过多个并行子模块,分别关注不同尺度数据,独立计算权重生成特征表示,助力模型更出色地利用信息。
2025创新点:多尺度注意力!Nature中科院一区手到擒来?激光雷达、EfficientViT、3D物体检测、语义分割、多尺度特征融合、目标检测、医学影像分割
今天,为帮助大家深入理解并运用该机制,我们准备了发表在顶刊中的创新方法,涵盖原文与代码,期待能为大家的研究注入新活力,一同探寻解决上述难题的创新路径 。
【论文1:Nature】Multi-scale attention network (MSAN) for track circuits fault diagnosis
论文简述
轨道电路作为铁路信号系统三大室外部件之一,在保障列车运行安全和效率方面发挥着重要作用。因此,当故障发生时,需要快速准确地找出故障原因并及时处理,以避免影响列车运行效率和发生安全事故。论文提出了一种基于多尺度注意力网络的故障诊断方法,该方法利用格拉姆角场(Gramian Angular Field, GAF)将一维时间序列转换为二维图像,充分发挥卷积网络在处理图像数据方面的优势。设计了一种新的特征融合训练结构,以有效训练模型,充分提取不同尺度的特征,并通过空间注意力机制融合空间特征信息。最后,使用实际轨道电路故障数据集进行实验,故障诊断准确率达到99.36%,与经典和最先进的模型相比,本文模型表现出更好的性能。消融实验验证了所设计模型中的每个模块都起着关键作用。
【高引113次:论文2】Efficient Multi-Scale Attention Module with Cross-Spatial Learning
论文简述
该论文提出了一种高效多尺度注意力(EMA)模块。通道或空间注意力机制虽在计算机视觉任务中表现出色,但通道降维建模跨通道关系存在副作用。EMA模块通过将部分通道重塑为批量维度、分组通道维度为子特征,保留通道信息、降低计算开销,让空间语义特征更好分布。该模块不仅编码全局信息校准通道权重,还通过跨维度交互聚合并行分支输出特征,捕捉像素级成对关系。研究人员利用CIFAR-100、ImageNet-1k等流行基准数据集,在图像分类和目标检测任务中开展大量消融研究与实验,验证EMA性能。结果显示,相较于CBAM、NAM等模块,EMA效果更佳且参数需求更少。此研究为将注意力机制融入卷积神经网络提供了系统方法,有望在语义分割等领域广泛应用。
【论文3】scAMAC: self-supervised clustering of scRNA-seq data based on adaptive multi-scale autoencoder
论文简述
该论文提出了一种基于自适应多尺度自动编码器的自监督聚类方法scAMAC,用于单细胞RNA测序(scRNA-seq)数据分析。现有深度学习聚类方法常忽视网络层间的联系,导致结构信息丢失。scAMAC利用多尺度注意力机制,融合多尺度自动编码器各层的特征信息,挖掘细胞间相关性并捕捉跨尺度的深层特征。其自监督聚类网络基于融合的潜在特征计算隶属度矩阵,优化聚类网络;自适应反馈机制监督自动编码器参数更新,有效表征细胞特征。实验显示,在14个真实数据集上,scAMAC的聚类性能优于多种先进方法。在基因表达恢复和细胞轨迹推断任务中,scAMAC也表现出色。消融实验表明模型各组件至关重要。总之,scAMAC在scRNA-seq数据分析中优势显著,为理解细胞行为提供了新途径 。
【论文4:ICLR2024】Multi-Scale Representations by Varying Window Attention for Semantic Segmentation
论文简述
该论文针对语义分割中的多尺度学习问题展开研究。通过可视化经典多尺度表示的有效感受野,研究人员发现现有方法存在尺度不足和感受野失活的风险。为此,提出了可变窗口注意力(VWA)机制,将局部窗口注意力分解为查询窗口和上下文窗口,使上下文窗口尺度可变,让查询窗口学习多尺度表示。为解决扩大上下文窗口带来的高成本问题,设计了重新缩放策略,在不降低性能的同时消除额外开销,使 VWA 与局部窗口注意力计算成本相同。基于 VWA 和多种 MLP,他们还引入了多尺度解码器 VWFormer。
实验结果表明,VWFormer 在性能和效率上优于其他多尺度解码器,如在 ADE20K 数据集上,使用 UPerNet 一半的计算量,平均交并比(mIoU)却能提高 1.0%-2.5% 。总之,该研究揭示了现有多尺度学习方法的问题,提出的 VWA 和 VWFormer 为语义分割提供了更有效的解决方案。
【论文5:ICRA2024】Hierarchical Point Attention for Indoor 3D Object Detection
论文简述
本文针对 3D 物体检测展开研究。3D 物体检测对机器人系统至关重要,Transformer 在该领域有应用,但普通 Transformer 缺乏层次结构,影响小物体特征学习,在室内环境中可靠性欠佳。为此,他们提出两种新型注意力操作,用于基于点的 Transformer 检测器的分层设计。聚合多尺度注意力(MS-A)通过单尺度输入构建多尺度令牌,实现更细粒度的特征学习;尺寸自适应局部注意力(Local-A)基于边界框提案的大小自适应定义注意力区域,进行局部特征聚合。这两个模块与模型无关,可嵌入现有点云 Transformer 进行端到端训练。在两个室内检测基准测试中,将其模块嵌入到最先进的基于 Transformer 的 3D 检测器后,提升了之前的最佳结果,尤其在小物体检测上改进明显。该研究为 3D 物体检测提供了新的思路,有助于提升相关机器人系统在复杂室内环境中的感知能力。
【论文6:MIT Han Lab 】EfficientViT: Lightweight Multi-Scale Attention for On-Device Semantic Segmentation
论文简述
本文提出EfficientViT,用于设备端语义分割。语义分割应用广泛,但当前先进模型计算成本高,难以部署于边缘设备。EfficientViT的轻量级多尺度注意力机制,以轻量且硬件高效的操作实现全局感受野和多尺度学习。在多个基准数据集上,其性能优于以往先进模型,移动平台速度大幅提升。在Cityscapes数据集,它能在不损失性能的情况下,使移动延迟相比SegFormer和SegNeXt最多降低15倍和9.3倍;在ADE20K数据集,保持相同移动延迟时,mIoU比SegNeXt高7.4 。
【论文7 】LENet: Lightweight And Efficient LiDAR Semantic Segmentation Using Multi-Scale Convolution Attention
论文简述
本文中,Ding 和 Jiao 提出了 LENet,这是一种基于投影的轻量级高效激光雷达语义分割网络,采用编码器 - 解码器架构。编码器由一组多尺度卷积注意力(MSCA)模块构成,该模块能捕获多尺度特征图。解码器包含 IAC 模块,它通过双线性插值对多分辨率特征图进行上采样,并利用单个卷积层整合不同维度的特征,极为轻量,大幅降低了复杂度和存储成本。此外,他们引入多个辅助分割头,进一步提升网络精度。通过在知名公共基准数据集 SemanticKITTI 上的详细定量实验,展示了该网络各组件对最终性能的贡献。实验结果表明,LENet 比现有最先进的语义分割方法更轻量、更有效,在实时运行的同时,精度表现更高
【鹏城实验室:论文8 】 DilateFormer: Multi-Scale Dilated Transformer for Visual Recognition
论文简述
在这项工作里,本文对有效的Vision Transformers展开探索,力求在计算复杂度与关注感知野大小之间达成更优的权衡。通过剖析ViTs全局注意力的块交互情况,作者发现了浅层的两个关键特性:局部性和稀疏性,这意味着ViTs浅层的全局依赖模型存在冗余现象。
鉴于此,文章提出了多尺度扩张注意力(Multi-Scale Dilated Attention,MSDA),以此在滑动窗口内对局部和稀疏的块交互进行建模。通过采用金字塔结构,本文构建了多尺度扩张变换器(Multi-Scale Dilated Transformer,DilateFormer),该变换器中堆叠了MSDA块。在DilateFormer的低层阶段使用稀疏卷积,高层阶段则采用稀疏卷积和全局多头自注意力块 。
有以下论文写作问题的可以扫下方名片详聊
前沿顶会、期刊论文、综述文献浩如烟海,不知道学习路径,无从下手?
没时间读、不敢读、不愿读、读得少、读不懂、读不下去、读不透彻一篇完整的论文?
CVPR、ICCV、ECCV、ICLR、NeurlPS、AAAI……想发表顶会论文,找不到创新点?
读完论文,仍旧无法用代码复现……
然而,导师时常无法抽出时间指导,想写论文却无人指点……