多尺度特征融合13种创新方案全面汇总，含2024年最新

最新推荐文章于 2025-04-03 11:47:04 发布

深度之眼

最新推荐文章于 2025-04-03 11:47:04 发布

阅读量2.5w

点赞数 54

分类专栏：人工智能干货深度学习干货文章标签：计算机视觉人工智能特征融合论文

本文链接：https://blog.csdn.net/weixin_42645636/article/details/135850393

版权

深度学习干货同时被 2 个专栏收录

669 篇文章

订阅专栏

人工智能干货

642 篇文章

订阅专栏

前段时间和大佬朋友交流学术的时候，发现目前发论文最好用的2大创新方式一是加注意力机制，二是多尺度特征融合。上回我们讲过了加注意力机制，今天我们就来聊聊多尺度特征融合。

多尺度特征融合是一种在图像处理和CV中使用的技术，由于其在各种任务中都通用，并且对改善识别、分类或检测任务的性能都非常有用，所以成了我们发paper的必备创新点。

这次我就和同学们分享多尺度特征融合的13种创新思路，分了4个大方向：自适应多尺度特征融合机制、基于图神经网络的多尺度融合、注意力引导的多尺度特征融合以及端到端的多尺度特征学习。

论文原文以及开源代码合集看文末

1.scale-Adaptive Feature Aggregation for Efficient Space-Time Video Super-Resolution（WACV 2024）

用于高效空时视频超分辨率的尺度自适应特征聚合

简述：STVSR任务的目标是通过同时执行视频帧插值和视频超分辨率来提高视频的视觉质量。然而，现有的STVSR方法在处理额外的时间维度和尺度不一致性时既复杂又不灵活。作者发现，选择适当的处理尺度在基于流的特征传播中能获得显著的好处。为此，作者提出了一种新的尺度自适应特征聚合（SAFA）网络。该网络能够为各个样本自适应地选择具有不同处理尺度的子网络。

2.CENet:Cascade Fusion Network for Dense Prediction

用于密集预测的级联融合网络

简述：在处理图像中物体检测和分割这类任务时，使用不同大小的特征很重要。现在的方法通常先通过一个主网络提取特征，然后再合并它们，但这样做有时会延迟合并，效果不佳。作者提出了一个新的网络结构CEDNet，它能更好地合并这些特征，并且整体效果更好。实验证明，这个方法在相关任务上很有效。

3.Centralized Feature Pyramid for Object Detection

用于目标检测的集中特征金字塔

简述：特征金字塔在图像识别任务中很有用，但现有方法主要关注不同层之间的交互，忽略了同一层内特征的处理。一些方法尝试用注意力机制改进这一点，但还是漏掉了图像角落区域的信息，这对精确识别很重要。作者提出了一种新的集中式特征金字塔（CFP），它能全局地优化特征，并且特别关注图像的角落。实验表明，这种方法在物体检测方面比现有技术更好。

4.LITE-HRNET PLUS: FAST AND ACCURATE FACIAL LANDMARK DETECTION

快速且准确的面部特征点检测

简述：面部特征点检测对实时跟踪驾驶员状态很重要。Lite-HRNet可以快速估计特征点，但存在计算成本高的问题。作者提出了一个新的架构，Lite-HRNet Plus，它改进了融合块和输出模块，减少了计算量。实验表明，Lite-HRNet Plus比传统方法更准确，而且计算复杂度低。

5.Accurate Leukocyte Detection Based on Deformable-DETR and Multi-Level Feature Fusion for Aiding Diagnosis of Blood Diseases

基于可变形DETR和多层次特征融合的精确白细胞检测

简述：医院血液检测中，医生通常需要手动在显微镜下识别血液中的白细胞。这个过程耗时且容易出错。现代的白细胞检测方法在处理特征不明显或大小不一的白细胞图像时也存在问题。为了改善这些问题，作者提出了一个新型的白细胞检测方法：多级特征融合和可变形自注意力DETR（MFDS-DETR）。这个方法通过结合不同层级的特征和使用特殊的模块来提取白细胞的详细信息，提高了检测的准确性。

6.MICN: MULTI-SCALE LOCAL AND GLOBAL CONTEXTMODELING FOR LONG-TERM SERIES FORECASTING

面向长期时间序列预测的多尺度局部与全局上下文建模

简述：论文提出了一种新的时间序列预测方法，叫做多尺度等距卷积网络（MICN）。这个方法结合了局部特征和全局关系来更好地理解时间序列数据。通过使用不同尺度的结构，它能够分别捕捉不同的模式。MICN既有效又高效，实验结果显示它在多个数据集上比现有技术表现得更好。

7.M2SNet: Multi-scale in Multi-scale SubtractionNetwork for Medical Image Segmentation

用于医学图像分割的多尺度多尺度减法网络

简述：论文提出了一种新的医学图像分割方法，叫做多尺度多尺度减法网络（M2SNet）。这个方法使用一个特殊的单元来提取图像不同层次之间的差异特征。通过这种方式，它可以更好地捕捉病变的细节和结构信息，从而提高分割的准确性。在不同的医学图像数据集上的测试表明，M2SNet的表现优于许多现有技术。

8.MS-TCT: Multi-Scale Temporal ConvTransformer for Action Detection

用于动作检测的多尺度时间卷积transformer

简述：作者设计了一个新的动作检测网络——MS-TCT，用来在复杂视频中识别动作。这个网络通过三个主要部分来工作：（1）探索不同时序下的动作关系；（2）将不同时间尺度的特征有效结合；（3）预测视频中每一帧的动作类别。MS-TCT在几个难处理的数据集上都取得了比现有技术更好的效果。

9.Scale-Aware Modulation Meet Transformer

尺度感知调制遇见Transformer

简述：作者设计了一个新的视觉Transformer模型，称为尺度感知调制Transformer（SMT），它结合了卷积网络和Transformer技术，能高效处理多种图像识别任务。这个模型有两个创新点：一是引入了一个能捕捉不同大小特征的模块；二是设计了一个轻量级的信息融合模块。这两个模块提升了模型的性能。此外，与之前模型全程使用调制不同，新模型模拟了从局部到全局特征捕捉的过程，取得了更好的效果。

10.Title: Towards Efficient Use of Multi-Scale Features inTransformer-Based Obiect Detectors

基于Transformer的目标检测器中多尺度特征的高效利用

简述：论文提出了一种新方法，使得基于Transformer的目标检测器能够高效地使用多尺度特征。这种方法通过两个主要设计实现：一是重新组织Transformer的工作流程，使得特征可以根据检测结果进行更新；二是在关键位置稀疏地选择适合的特征来改进检测。这种方法虽然只使用了少数位置的特征，但仍然能显著提高目标检测的性能，并且计算成本增加不多。

11.Shunted Self-Attention via Multi-Scale Token Aggregation

通过多尺度令牌聚合的分流自注意力

简述：论文提出了一种新的方法，称为分流自注意力（SSA），用于改善视觉Transformer（ViT）模型处理不同大小物体的图像时的性能。SSA通过合并代表大物体特征的令牌，同时保留细节特征的令牌，使得每一层的注意力机制能同时考虑不同尺度的特征。这种方法提高了模型的准确性，同时减少了计算成本。实验结果显示，SSA在多个任务中都取得了很好的效果。

12.CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image Classification

用于图像分类的跨注意力多尺度视觉Transformer

简述：作者提出了一种新的视觉Transformer模型，称为CrossViT，专门用于图像分类。这个模型通过两个分支处理不同大小的图像块，并使用交叉注意力机制将它们结合起来，以获得更强的特征表示。这种方法提高了性能，同时保持了较低的计算成本。实验结果显示，CrossViT在ImageNet数据集上的表现优于其他一些先进的模型。

13.Effective Image Tampering Localization with Multi-Scale ConvNeXt Feature Fusion

利用多尺度ConvNeXt特征融合有效定位图像篡改

简述：论文提出了一种基于ConvNeXt网络和多尺度特征融合的有效图像篡改定位方案。堆叠的ConvNeXt块被用作编码器来捕获分层的多尺度特征，然后在解码器中融合这些特征以准确定位被篡改的像素。结合损失和有效的数据增强被采用来进一步提高模型性能。广泛的实验结果表明，该方案的定位性能优于其他最先进的方法。