面向AI研究的模块化即插即用架构综述与资源整理全覆盖

在当前深度学习研究日益激烈的背景下,如何高效提升论文创新性与实验迭代效率已成为科研人员关注的核心问题。近年来,“即插即用模块”(Plug-and-Play Modules)因其“无缝集成”、“快速启用”的特性,逐渐成为论文中常见的性能增强组件。此类模块通常具备良好的模块化设计和标准化接口,能够灵活适配多种网络架构与任务类型,显著降低模型改进的技术门槛与开发成本。本文围绕当前主流的即插即用模块进行系统梳理,涵盖2025年最新发表于顶会顶刊中的成果,覆盖计算机视觉(CV)、图像处理及其他AI相关任务。所有模块均提供可复现代码,并按功能分类整理,用户可直接“拖进项目即用”,实现快速验证与性能提升,助力科研高效落地。

1. 注意力机制

(1) MCA: Multidimensional collaborative attention in deep convolutio​(MCA:用于图像识别的深度卷积神经网络中的多维协同注意力)——一种多维协作注意力
论文地址https://www.sciencedirect.com/science/article/abs/pii/S0952197623012630
代码地址https://www.sciencedirect.com/science/article/abs/pii/S0952197623012630

(2) MCANet: Medical Image Segmentation withMulti-Scale Cross-Axis Attention​(MCANet:具有多尺度交叉轴注意力的医学图像分割)——基本适用于CV所有领域

论文地址https://arxiv.org/pdf/2312.08866v1
代码地址https://github.com/haoshao-nku/medical_seg

(3)Recursive Generalization Transformer for Image Super-Resolution​(用于图像超分辨率的递归泛化转换器)——RG_SA(递归泛化自注意力)-应用于CV2d任务

论文地址https://arxiv.org/abs/2303.06373
代码地址https://github.com/zhengchen1999/RGT

(4) Energy-Based Cross Attention for Bayesian Context Update in Text-to-Image Diffusion Models​(文本到图像扩散模型中贝叶斯上下文更新的基于能量的交叉注意力)——来自扩散生成领域

论文地址https://arxiv.org/abs/2306.09869
代码地址https://github.com/EnergyAttention/Energy-Based-CrossAttention

(5) Fast Vision Transformers with HiLo Attention​(具有 HiLo Attention 的 Fast Vision 变压器)——结合图像高频低频的即插即用注意力,应用于CV2d领域

论文地址https://arxiv.org/abs/2205.13213
代码地址https://github.com/ziplab/LITv2

(6) HCF-Net: Hierarchical Context Fusion Network for Infrared Small Object Detection(HCF-Net: 用于红外小目标检测的分层上下文融合网络)——PPA-Attention(并行化贴片感知注意力)-CV2d任务通用

论文地址https://arxiv.org/abs/2403.10778
代码地址https://github.com/zhengshuchen/HCFNet

(7) AGCA: An Adaptive Graph Channel Attention Module for Steel Surface Defect Detection(AGCA:用于钢材表面缺陷检测的自适应图形通道注意力模块)——可用于CV2维图像和图卷积网络

论文地址https://ieeexplore.ieee.org/document/10050536
代码地址https://github.com/C1nDeRainBo0M/AGCA

(8) Relation-Aware Global Attention for Person Re-identification(用于人员重新识别的关系感知全局关注)——RGA(关系感知全局注意力)-来自行人重识别领域

论文地址https://arxiv.org/abs/1904.02998
代码地址https://github.com/microsoft/Relation-Aware-Global-Attention-Networks

(9) Edge-Enhanced GCIFFNet: A Multiclass Semantic Segmentation Network Based on Edge Enhancement and Multiscale Attention Mechanism(边缘增强 GCIFFNet:一种基于边缘增强和多尺度注意力机制的多类语义分割网络)——EGA(边缘引导注意力),来于边缘检测任务,即插即用于CV2维图像任务

论文地址https://ieeexplore.ieee.org/document/10412635

(10) Agent Attention: On the Integration of Softmax and Linear Attention(Agent Attention:关于 Softmax 和 Linear Attention 的集成)——Agent-Attention(全新注意力范式)-ECCV2024!CV2维图像任务通用!

论文地址https://arxiv.org/abs/2312.08874
代码地址https://github.com/LeapLabTHU/Agent-Attention

(11) Squeeze-and-Excitation Networks(挤压激励网络)——SENet的3D版本和PE模块,即插即用3D注意力模块

论文地址https://arxiv.org/abs/1709.01507
代码地址https://github.com/miraclewkf/SENet-PyTorch

(12) ULSAM: Ultra-Lightweight Subspace Attention Module for Compact Convolutional Neural Networks(ULSAM:用于紧凑型卷积神经网络的超轻量级子空间注意力模块)——ULSAM(WACV2020):一种空间注意力模块,即插即用

论文地址https://arxiv.org/abs/2006.15102
代码地址https://github.com/Nandan91/ULSAM

(13) Concurrent Spatial and Channel Squeeze & Excitation in Fully Convolutional Networks(在完全卷积网络中并发空间和通道压缩和激励)——GCT(CVPR2020):改进通道注意力SENet,即插即用模块

论文地址https://arxiv.org/abs/1803.02579

(14) DICAM promotes TH17 lymphocyte trafficking across the blood-brain barrier during autoimmune neuroinflammation(DICAM 推广 TH17 自身免疫性神经炎症期间跨血脑屏障的淋巴细胞运输)——DICAM:适用于水下图像增强的注意力模块

论文地址https://pubmed.ncbi.nlm.nih.gov/34985970/

(15) AAU-net: An Adaptive Attention U-net for Breast Lesions Segmentation in Ultrasound Images(AAU-net: 一种用于超声图像中乳腺病变分割的自适应注意力 U-net)——HAAM:混合自适应注意力模块,适用于图像分割任务

论文地址https://arxiv.org/abs/2204.12077
代码地址https://github.com/CGPxy/AAU-net

(16) Half Wavelet Attention on M-Net+ for Low-Light Image Enhancement(M-Net+ 上的半小波注意力用于低光图像增强)——可用于低光图像增强任务

论文地址https://arxiv.org/abs/2203.01296
代码地址https://github.com/FanChiMao/HWMNet

(17) Unsupervised Bidirectional Contrastive Reconstruction and Adaptive Fine-Grained Channel Attention Networks for image dehazing(用于图像去雾的无监督双向对比重建和自适应细粒度通道注意力网络)——改进SE通道注意力

论文地址https://www.sciencedirect.com/science/article/abs/pii/S0893608024002387
代码地址https://github.com/Lose-Code/UBRFC-Net

(18) SCSA: Exploring the Synergistic Effects Between Spatial and Channel Attention(SCSA:探索空间注意力和渠道注意力之间的协同效应)

论文地址https://arxiv.org/abs/2407.05128
代码地址https://github.com/HZAI-ZJNU/SCSA

(19) Perspective+ Unet: Enhancing Segmentation with Bi-Path Fusion and Efficient Non-Local Attention for Superior Receptive Fields(Perspective+ Unet:通过双路径融合和高效的非局部注意力增强分割,以实现卓越的感受野)——MICCAI 2024 | 高效非局部注意力ENLTB

论文地址https://arxiv.org/abs/2406.14052
代码地址https://github.com/tljxyys/Perspective-Unet

(20) Demystify Mamba in Vision: A Linear Attention Perspective(揭开 Mamba 在视觉中的神秘面纱:线性注意力视角)——继承Mamba优势 | 线性注意力模块 | 计算机视觉任务通用

论文地址https://arxiv.org/abs/2405.16605
代码地址https://github.com/LeapLabTHU/MLLA

(21) LDConv: Linear deformable convolution for improving convolutional neural networks(LDConv:用于改进卷积神经网络的线性可变形卷积)——线性可变形卷积LDConv | 视觉任务通用

论文地址https://arxiv.org/abs/2311.11587
代码地址https://github.com/CV-ZhangXin/LDConv

(22) SwiftFormer: Efficient Additive Attention for Transformer-based Real-time Mobile Vision Applications(SwiftFormer:基于变压器的实时移动视觉应用的高效加法注意力)

论文地址https://arxiv.org/abs/2303.15446
代码地址https://github.com/Amshaker/SwiftFormer

(23) A dual encoder crack segmentation network with Haar wavelet-based high–low frequency attention(一种基于 Haar 小波的高低频注意力的双编码器裂纹分割网络)——深度学习裂缝检测 | 基于Haar小波的注意力

论文地址https://www.sciencedirect.com/science/article/abs/pii/S0957417424018177

(24) LGAG-Net: Lesion-Guided Adaptive Graph Network for Bone Abnormality Detection From Musculoskeletal Radiograph(LGAG-Net:用于从肌肉骨骼 X 光片中检测骨异常的病变引导自适应图形网络)——CVPR2024大核分组注意力门控模块LGAG适用于医学图像分割任务的即插即用模块

论文地址https://ieeexplore.ieee.org/abstract/document/10371282

(25) CSAM: A 2.5D Cross-Slice Attention Module for Anisotropic Volumetric Medical Image Segmentation(CSAM:用于各向异性体积医学图像分割的 2.5D 交叉切片注意力模块)——医学图像分割任务 | WACV2024顶会 | 交叉切片注意力,适用于所有CV方向任务

论文地址https://arxiv.org/abs/2311.04942
代码地址https://github.com/aL3x-O-o-Hung/CSAM

(26) TransNeXt: Robust Foveal Visual Perception for Vision Transformers(TransNeXt:用于视觉变压器的稳健中心凹视觉感知)——CVPR 2024顶会 | CGLU卷积门控通道注意力即插即用模块,适用于CV和NLP任务通用注意力模块

论文地址https://arxiv.org/abs/2311.17132
代码地址https://github.com/DaiShiResearch/TransNeXt

(27) Multi-scale Attention Network for Single Image Super-Resolution(用于单图像超分辨率的多尺度注意力网络)——CVPR 2024顶会 | MLKA多尺度大核注意力模块,适用于所有CV2维任务

论文地址https://arxiv.org/abs/2209.14145
代码地址https://github.com/icandle/MAN

(28) Vision Transformer with Deformable Attention(具有可变形注意力的 Vision Transformer)——可用于时间序列预测任务的可变形注意力模块Deformable Attention

论文地址https://arxiv.org/abs/2201.00520
代码地址https://github.com/LeapLabTHU/DAT

(29) FECAM: Frequency Enhanced Channel Attention Mechanism for Time Series Forecasting(FECAM:用于时间序列预测的频率增强通道注意力机制)——用于时间序列预测的频率增强信道注意力机制(dct_channel_block)

论文地址https://arxiv.org/abs/2212.01209
代码地址https://github.com/Zero-coder/FECAM

(30) DSANet: Dual Self-Attention Network for Multivariate Time Series Forecasting(DSANet:用于多变量时间序列预测的双自注意力网络)——去稳态注意力-用于时间预测序列的即插即用注意力

论文地址https://dl.acm.org/doi/10.1145/3357384.3358132
代码地址https://github.com/bighuang624/DSANet

(31) Interpretable local flow attention for multi-step traffic flow prediction(用于多步骤流量预测的可解释本地流关注)——局部流注意力-用于交通流预测的即插即用模块

论文地址https://www.sciencedirect.com/science/article/abs/pii/S0893608023000230?via%3Dihub
代码地址https://github.com/hub5/LFAConvLSTM

(32) DCT-Former: Efficient Self-Attention with Discrete Cosine Transform(DCT-Former: 具有离散余弦变换的高效自注意力)——用于时间序列预测任务,适用于NLP方向的即插即用注意力模块

论文地址https://arxiv.org/abs/2203.01178
代码地址https://github.com/cscribano/DCT-Former-Public

(33) MotionAGFormer: Enhancing 3D Human Pose Estimation with a Transformer-GCNFormer Network(MotionAGFormer:使用 Transformer-GCNFormer 网络增强 3D 人体姿势估计)——关键点检测任务 | WACV2024顶会 | AGF注意力即插即用模块,适用于3D人体关键点检测任务

论文地址https://arxiv.org/abs/2310.16288
代码地址https://github.com/TaatiTeam/MotionAGFormer

(34) Rethinking Transformer-Based Blind-Spot Network for Self-Supervised Image Denoising(重新思考基于 Transformer 的盲点网络进行自监督图像去噪)——【AAAI 2025】

论文地址https://arxiv.org/abs/2404.07846
代码地址https://github.com/nagejacob/TBSN

(35) Unsupervised Bidirectional Contrastive Reconstruction and Adaptive Fine-Grained Channel Attention Networks for image dehazing(用于图像去雾的无监督双向对比重建和自适应细粒度通道注意力网络)

论文地址https://www.sciencedirect.com/science/article/abs/pii/S0893608024002387?via%3Dihub
代码地址https://github.com/Lose-Code/UBRFC-Net

(36) RMT: Retentive Networks Meet Vision Transformers(RMT: 保留网络与视觉变换器的结合)——【CVPR 2024】

论文地址https://arxiv.org/abs/2309.11523
代码地址https://github.com/qhfan/RMT

(37) CATANet: Efficient Content-Aware Token Aggregation for Lightweight Image Super-Resolution(CATANet:用于轻量级图像超分辨率的高效内容感知Token聚合)——【CVPR 2025】

论文地址https://arxiv.org/abs/2503.06896
代码地址https://github.com/EquationWalker/CATANet/tree/main

(38) FSTA-SNN:Frequency-based Spatial-Temporal Attention Module for Spiking Neural Networks(FSTA-SNN:基于频率的时空注意力模块,用于脉冲神经网络)——【AAAI 2025】

论文地址https://arxiv.org/abs/2501.14744
代码地址https://github.com/yukairong/FSTA-SNN

(39) High-Similarity-Pass Attention for Single Image Super-Resolution(高相似度通道注意力用于单图像超分辨率)——【TIP 2024】

论文地址https://arxiv.org/abs/2305.15768
代码地址https://github.com/laoyangui/HSPAN

2. 归一化

(1) BCN: Batch Channel Normalization for Image Classification(BCN:用于图像分类的批量通道归一化)

论文地址https://arxiv.org/abs/2312.00596
代码地址https://github.com/AfifaKhaled/Batch-Channel-Normalization

(2) Lipschitz Normalization for Self-Attention Layers with Application to Graph Neural Networks(Lipschitz 自注意力层归一化及其在图神经网络中的应用)——Lipschitz归一化-应用于GAT和Graph Transformer的即插即用模块

论文地址https://arxiv.org/abs/2103.04886
代码地址https://github.com/gdasoulas/LipschitzNorm

(3) SelfNorm and CrossNorm for Out-of-Distribution Robustness(用于分布外稳健性的 SelfNorm 和 CrossNorm)——Crossnorm-Selfnorm-两种归一化方式

论文地址https://arxiv.org/abs/2102.02811v1

(4) CrossNorm and SelfNorm for Generalization under Distribution Shifts(分布偏移下泛化的 CrossNorm 和 SelfNorm)

论文地址https://arxiv.org/abs/2102.02811
代码地址https://github.com/amazon-science/crossnorm-selfnorm

(5) ContraNorm: A Contrastive Learning Perspective on Oversmoothing and Beyond(ContraNorm:关于过度平滑和超越的对比学习视角)——ContraNorm(对比归一化层)-可以轻松集成到GNN和Transformer

论文地址https://arxiv.org/abs/2303.06562
代码地址https://github.com/PKU-ML/ContraNorm

3. 时序

(1) FITS: Modeling Time Series with 10k Parameters(FITS:时间序列建模参数)——FITS(从频域角度出发)-用于时间序列任务的即插即用模块

论文地址https://arxiv.org/abs/2307.03756
代码地址https://github.com/VEWOXIC/FITS

(2) TSLANet: Rethinking Transformers for Time Series Representation Learning——TSLANet: 重新思考用于时间序列表示学习的Transformers

论文地址https://arxiv.org/abs/2404.08472
代码地址https://github.com/emadeldeen24/TSLANet

(3) MSGNet: Learning Multi-Scale Inter-Series Correlations for Multivariate Time Series Forecasting(MSGNet:学习多变量时间序列预测的多尺度序列间相关性)——时间序列预测 | AAAI 2024

论文地址https://arxiv.org/abs/2401.00423
代码地址https://github.com/YoZhibo/MSGNet?tab=readme-ov-file

(4) A Time Series is Worth 64 Words: Long-term Forecasting with Transformers(一个时间序列胜过 64 个单词:使用 Transformers 进行长期预测)——NLP时间序列预测任务 | ICLR 2023顶会 | 补丁时间序列预测PatchTST即插即用模块,NLP方向通用模块

论文地址https://arxiv.org/abs/2211.14730
代码地址https://github.com/yuqinie98/patchtst

4. CV全流程任务

(1) RFAConv: Innovating Spatial Attention and Standard Convolutional Operation(RFAConv:创新空间注意力和标准卷积运算)——基本适用于分类,目标检测,分割等所有CV任务

论文地址https://arxiv.org/abs/2304.03198
代码地址https://github.com/Liuchen1997/RFAConv

(2) Salient Positions based Attention Network for Image Classification(基于 Ssignt Positions 的图像分类注意力网络)——SPABlock-显著位置选择模块,适用于CV的即插即用模块,非卷积,也非注意力

论文地址https://arxiv.org/abs/2106.04996
代码地址https://github.com/likyoo/SPANet

(3) SwiftFormer: Efficient Additive Attention for Transformer-based Real-time Mobile Vision Applications(SwiftFormer:基于变压器的实时移动视觉应用的高效加法注意力)——ICCV 2023 | 轻量高效编码器 | 视觉任务通用

论文地址https://arxiv.org/abs/2303.15446
代码地址https://github.com/Amshaker/SwiftFormer

5. CV二维

(1) CoordGate: Efficiently Computing Spatially-Varying Convolutions in Convolutional Neural Networks(CoordGate:在卷积神经网络中高效计算空间变化的卷积)——CoordGate-非卷积!非注意力的即插即用模块,能够根据输入图像的特定特征动态调整权重,CV二维图像任务通用!

论文地址https://arxiv.org/abs/2401.04680

import torch
import torch.nn as nn

# 论文:CoordGate: Efficiently Computing Spatially-Varying Convolutions in Convolutional Neural Networks
# 论文地址:https://arxiv.org/pdf/2401.04680v1

class CoordGate(nn.Module):
    def __init__(self, enc_channels, out_channels, size: list = [256, 256], enctype='pos', **kwargs):
        super(CoordGate, self).__init__()
        '''
        type can be:'pos' - position encoding
                    'regularised' 
        '''

        self.enctype = enctype
        self.enc_channels = enc_channels

        if enctype == 'pos':

            encoding_layers = kwargs['encoding_layers']

            x_coord, y_coord = torch.linspace(-1, 1, int(size[0])), torch.linspace(-1, 1, int(size[1]))

            self.register_buffer('pos', torch.stack(torch.meshgrid((x_coord, y_coord), indexing='ij'), dim=-1).view(-1,
                                                                                                                    2))  # .to(device)

            self.encoder = nn.Sequential()
            for i in range(encoding_layers):
                if i == 0:
                    self.encoder.add_module('linear' + str(i), nn.Linear(2, enc_channels))
                else:
                    self.encoder.add_module('linear' + str(i), nn.Linear(enc_channels, enc_channels))

        elif (enctype == 'map') or (enctype == 'bilinear'):

            initialiser = kwargs['initialiser']

            if 'downsample' in kwargs.keys():
                self.sample = kwargs['downsample']
            else:
                self.sample = [1, 1]

            self.map = nn.Parameter(initialiser)

        self.conv = nn.Conv2d(enc_channels, out_channels, 1, padding='same')

        self.relu = nn.ReLU()

    def forward(self, x):
        '''
        x is (bs,nc,nx,ny)
        '''
        if self.enctype == 'pos':

            gate = self.encoder(self.pos).view(1, x.shape[2], x.shape[3], x.shape[1]).permute(0, 3, 1, 2)
            gate = torch.nn.functional.relu(gate)  # ?
            x = self.conv(x * gate)
            return x


        elif self.enctype == 'map':

            map = self.relu(self.map).repeat_interleave(self.sample[0], dim=2).repeat_interleave(self.sample[1], dim=3)

            x = self.conv(x * map)
            return x

        elif self.enctype == 'bilinear':

            # if self.enc_channels == 9:
            map = create_bilinear_coeff_map_cart_3x3(self.map[:, 0:1], self.map[:, 1:2])
            # else:
            #     map = create_bilinear_coeff_map_cart_5x5(angles,distances)

            map = self.relu(map).repeat_interleave(self.sample[0], dim=2).repeat_interleave(self.sample[1], dim=3)

            x = self.conv(x * map)
            return x


def create_bilinear_coeff_map_cart_3x3(x_disp, y_disp):
    shape = x_disp.shape
    x_disp = x_disp.reshape(-1)
    y_disp = y_disp.reshape(-1)

    # Determine the quadrant based on the signs of the displacements
    primary_indices = torch.zeros_like(x_disp, dtype=torch.long)
    primary_indices[(x_disp >= 0) & (y_disp >= 0)] = 0  # Quadrant 1
    primary_indices[(x_disp < 0) & (y_disp >= 0)] = 2  # Quadrant 2
    primary_indices[(x_disp < 0) & (y_disp < 0)] = 4  # Quadrant 3
    primary_indices[(x_disp >= 0) & (y_disp < 0)] = 6  # Quadrant 4
    # Define the number of directions
    num_directions = 8

    # Compute the indices for the primary and secondary directions
    secondary_indices = ((primary_indices + 1) % num_directions).long()
    tertiary_indices = (primary_indices - 1).long()
    tertiary_indices[tertiary_indices < 0] = num_directions - 1

    x_disp = x_disp.abs()
    y_disp = y_disp.abs()

    coeffs = torch.zeros((x_disp.size(0), num_directions + 1), device=x_disp.device)
    batch_indices = torch.arange(x_disp.size(0), device=x_disp.device)

    coeffs[batch_indices, primary_indices] = (x_disp * y_disp)
    coeffs[batch_indices, secondary_indices] = x_disp * (1 - y_disp)
    coeffs[batch_indices, tertiary_indices] = (1 - x_disp) * y_disp
    coeffs[batch_indices, -1] = (1 - x_disp) * (1 - y_disp)

    swappers = (primary_indices == 0) | (primary_indices == 4)

    coeffs[batch_indices[swappers], secondary_indices[swappers]] = (1 - x_disp[swappers]) * y_disp[swappers]
    coeffs[batch_indices[swappers], tertiary_indices[swappers]] = x_disp[swappers] * (1 - y_disp[swappers])

    coeffs = coeffs.view(shape[0], shape[2], shape[3], num_directions + 1).permute(0, 3, 1, 2)
    reorderer = [0, 1, 2, 7, 8, 3, 6, 5, 4]

    return coeffs[:, reorderer, :, :]


if __name__ == '__main__':
    # 创建 CoordGate 模块的实例
    enc_channels = 32
    out_channels = 32
    size = [256, 256]
    enctype = 'pos'
    encoding_layers = 2
    initialiser = torch.rand((out_channels, 2))
    kwargs = {'encoding_layers': encoding_layers, 'initialiser': initialiser}
    block = CoordGate(enc_channels, out_channels, size, enctype, **kwargs)

    # 生成随机输入数据
    input_size = (1, enc_channels, size[0], size[1])
    input_data = torch.rand(input_size)

    # 对输入数据进行前向传播
    output = block(input_data)

    # 打印输入和输出数据的形状
    print("Input size:", input_data.size())
    print("Output size:", output.size())

(2) Efficient Multi-Scale Attention Module with Cross-Spatial Learning(具有跨空间学习的高效多尺度注意力模块)——ESAM-增强边缘信息的即插即用模块,CV2维任务通用

论文地址https://arxiv.org/abs/2305.13563
代码地址https://github.com/YOLOonMe/EMA-attention-module

(3) Context-Aware Crowd Counting(情境感知人群计数)——CAN(上下文感知模块)-来自于人群计数任务,CV2维图像通用!

论文地址https://arxiv.org/abs/1811.10452
代码地址https://github.com/weizheliu/Context-Aware-Crowd-Counting?tab=readme-ov-file

(4)Self-Supervised Predictive Convolutional Attentive Block for Anomaly Detection(用于异常检测的自监督预测卷积注意力块)——SSPCAB-来自图像和视频异常检测领域的即插即用模块,CV2维任务通用

论文地址https://arxiv.org/abs/2111.09099
代码地址https://github.com/ristea/sspcab

(5) Dynamic Filter Networks(动态过滤网络)——-通过频域滤波和动态调整滤波器权重对图像进行处理,CV2维度图像通用!

论文地址https://arxiv.org/abs/1605.09673
代码地址https://github.com/dbbert/dfn?tab=readme-ov-file

6.点云

(1) Adaptive Graph Convolution for Point Cloud Analysis(用于点云分析的自适应图卷积)——适用于点云分类和分割

论文地址https://arxiv.org/abs/2108.08035
代码地址https://github.com/hrzhou2/AdaptConv-master

(2) GeoConv: Geodesic Guided Convolution for Facial Action Unit Recognition(GeoConv:用于面部动作单元识别的测地线引导卷积)——GeoConv-用于点云的即插即用卷积模块

论文地址https://arxiv.org/abs/2003.03055

(3) PnP-3D: A Plug-and-Play for 3D Point Clouds(PnP-3D:用于 3D 点云的即插即用)——PnP-3D-增强点云网络性能的即插即用模块

论文地址https://arxiv.org/abs/2108.07378
代码地址https://github.com/ShiQiu0419/pnp-3d

(4) Parameter is Not All You Need: Starting from Non-Parametric Networks for 3D Point Cloud Analysis(参数不是您所需要的全部:从 3D 点云分析的非参数网络开始)——point-nn-即插即用模块应用于点云领域

论文地址https://arxiv.org/abs/2303.08134
代码地址https://github.com/ZrrSkywalker/Point-NN

(5) PF-Net: Point Fractal Network for 3D Point Cloud Completion(PF-Net:用于 3D 点云完成的点分形网络)——PFNet-来自点云补全的即插即用模块

论文地址https://arxiv.org/abs/2003.00410
代码地址https://github.com/zztianzz/PF-Net-Point-Fractal-Network?tab=readme-ov-file

(6) PRA-Net: Point Relation-Aware Network for 3D Point Cloud Analysis(PRA-Net:用于 3D 点云分析的点关系感知网络)——ISL(区域内结构学习)-用于点云任务的即插即用模块!

论文地址https://arxiv.org/abs/2112.04903
代码地址https://github.com/XiwuChen/PRA-Net

(7) KPConv: Flexible and Deformable Convolution for Point Clouds(KPConv:用于点云的灵活且可变形的卷积)——KpconvEncoder-基于点的特征提取,适用于点云领域

论文地址https://arxiv.org/abs/1904.08889
代码地址https://github.com/HuguesTHOMAS/KPConv

7. 卷积模块

(1) DEA-Net: Single image dehazing based on detail-enhanced convolution and content-guided attention(DEA-Net:基于细节增强卷积和内容引导注意力的单图像去雾)——基本可以应用于CV所有2d任务

论文地址https://arxiv.org/abs/2301.04805
代码地址https://github.com/cecret3350/DEA-Net

(2) Channel-wise Topology Refinement Graph Convolution for Skeleton-Based Action Recognition(用于基于骨骼的动作识别的通道拓扑细化图卷积)——CTR-GC-即插即用的通道拓扑细化图卷积用于骨架动作识别

论文地址https://arxiv.org/abs/2107.12213
代码地址https://github.com/Uason-Chen/CTR-GCN

(3) Wavelet Convolutions for Large Receptive Fields(大感受野的小波卷积)——小波变换卷积-来自ECCV2024!CV2维图像任务通用!

论文地址https://arxiv.org/abs/2407.05848
代码地址https://github.com/BGU-CS-VIL/WTConv

(4) TVConv: Efficient Translation Variant Convolution for Layout-aware Visual Processing(TVConv:用于布局感知视觉处理的高效翻译变体卷积)——TVConv(CVPR):可用于医学图像分割以及人脸识别的布局感知视觉处理的高效平移变体卷积

论文地址https://arxiv.org/abs/2203.10489
代码地址https://github.com/JierunChen/TVConv

(5) Dynamic Convolution: Attention over Convolution Kernels(动态卷积:卷积核上的注意力)——CVPR2020:包含一维,二维,三维的动态卷积,即插即用

论文地址https://arxiv.org/abs/1912.03458
代码地址https://github.com/kaijieshi7/Dynamic-convolution-Pytorch?tab=readme-ov-file

(6) Pyramidal Convolution: Rethinking Convolutional Neural Networks for Visual Recognition(金字塔卷积:重新思考用于视觉识别的卷积神经网络)——金字塔卷积,适用于几乎所有计算机视觉任务,即插即用

论文地址https://arxiv.org/abs/2006.11538
代码地址https://github.com/iduta/pyconv

(7) MDCR: A Dataset for Multi-Document Conditional Reasoning——多膨胀率通道卷积模块,即插即用,适用于目标检测等计算机视觉任务

论文地址https://arxiv.org/abs/2406.11784
代码地址https://github.com/peterbaile/mdcr?tab=readme-ov-file#mdcr-a-dataset-for-multi-document-conditional-reasoning

(8) CondConv: Conditionally Parameterized Convolutions for Efficient Inference(CondConv:用于高效推理的条件参数化卷积)——经典动态卷积,适用于几乎所有计算机视觉图像任务

论文地址https://arxiv.org/abs/1904.04971
代码地址https://github.com/tensorflow/tpu/tree/master/models/official/efficientnet/condconv

(9) DO-Conv: Depthwise Over-parameterized Convolutional Layer(DO-Conv:深度过参数化卷积层)——深度超参数化卷积层,适用于计算机视觉图像处理任务,可以替代传统卷积

论文地址https://arxiv.org/abs/2006.12030
代码地址https://github.com/yangyanli/DO-Conv

(10) Run, Don’t Walk: Chasing Higher FLOPS for Faster Neural Networks(Run, Don’t Walk:追求更高的 FLOPS 以获得更快的神经网络)

论文地址https://arxiv.org/abs/2303.03667
代码地址https://github.com/JierunChen/FasterNet

(11) Complex matrix inversion via real matrix inversions——大核卷积下采样模块

论文地址https://arxiv.org/abs/2208.01239
代码地址https://github.com/zhen06/Complex-Matrix-Inversion

(12) Wavelet Convolutions for Large Receptive Fields(大感受野的小波卷积)——ECCV 2024 | 即插即用小波变换卷积|计算机视觉任务通用

论文地址https://arxiv.org/abs/2407.05848
代码地址https://github.com/BGU-CS-VIL/WTConv

(13) Dynamic Convolution: Attention over Convolution Kernels——深度学习 | CVPR 2024顶会 | 适用于CV所有任务

论文地址https://arxiv.org/abs/1912.03458
代码地址https://github.com/kaijieshi7/Dynamic-convolution-Pytorch

(14) LDConv: Linear deformable convolution for improving convolutional neural networks(LDConv:用于改进卷积神经网络的线性可变形卷积)——目标检测任务 | SCI 2024 |线性可变形即插即用卷积模块,所有CV任务通用卷积模块!

论文地址https://arxiv.org/abs/2311.11587v3
代码地址https://github.com/CV-ZhangXin/LDConv

(15) AKConv: Convolutional Kernel with Arbitrary Sampled Shapes and Arbitrary Number of Parameters(AKConv:具有任意采样形状和任意数量的参数的卷积内核)

论文地址https://arxiv.org/abs/2311.11587v1
代码地址https://github.com/DL-CNN/AKConv/blob/main/README.md

(16) Adaptive Rectangular Convolution for Remote Sensing Pansharpening(用于遥感全色锐化的自适应矩形卷积)——CVPR 2025

论文地址https://arxiv.org/abs/2503.00467
代码地址https://github.com/WangXueyang-uestc/ARConv

(17)Pinwheel-shaped Convolution and Scale-based Dynamic Loss for Infrared Small Target Detection(基于风车形卷积和基于尺度的动态损失在红外小目标检测中的应用)——【AAAI 2025】

论文地址https://arxiv.org/abs/2412.16986
代码地址https://github.com/JN-Yang/PConv-SDloss-Data

(18) BHViT: Binarized Hybrid Vision Transformer(BHViT:二值化混合视觉变压器)——【CVPR 2025】

论文地址https://arxiv.org/abs/2503.02394
代码地址https://github.com/IMRL/BHViT

(19) Efficient Frequency-Domain Image Deraining with Contrastive Regularization(基于对比度正则化的高效频域图像去雨)

论文地址https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/05751.pdf
代码地址https://github.com/deng-ai-lab/FADformer

8. 视频预测

(1) SimVP: Simpler yet Better Video Prediction(SimVP:更简单但更好的视频预测)

论文地址https://arxiv.org/abs/2206.05099
代码地址https://github.com/ryok/SimVP-Simpler-yet-Better-Video-Prediction

9. 3D任务

(1) PoseBERT: A Generic Transformer Module for Temporal 3D Human Modeling(PoseBERT:用于时间 3D 人体建模的通用 Transformer 模块)——3D任务通用

论文地址https://arxiv.org/abs/2208.10211
代码地址https://github.com/naver/posebert

(2) A Geometric Knowledge Oriented Single-Frame 2D-to-3D Human Absolute Pose Estimation Method(一种面向几何知识的单帧 2D 到 3D 人体绝对姿态估计方法)——引入高维先验几何特征以提高模型效率和可解释性,用于三维人体姿态估计

论文地址https://ieeexplore.ieee.org/document/10131895
代码地址https://github.com/Humengxian/GKONet

(3) Beyond Self-Attention: Deformable Large Kernel Attention for Medical Image Segmentation(用于医学图像分割的可变形大核注意力)——WACV2024!适用于视觉3D任务的即插即用模块

论文地址https://arxiv.org/abs/2309.00121
代码地址https://github.com/xmindflow/deformableLKA

10. Mamba

(1) Convolutional State Space Models for Long-Range Spatiotemporal Modeling——Mamba Back!CV二维图像任务通用

论文地址https://arxiv.org/abs/2310.19694
代码地址https://github.com/NVlabs/ConvSSM

(2) nnMamba: 3D Biomedical Image Segmentation, Classification and Landmark Detection with State Space Model(nnMamba:使用状态空间模型进行 3D 生物医学图像分割、分类和地标检测)——用于CV 3维任务!

论文地址https://arxiv.org/abs/2402.03526
代码地址https://github.com/lhaof/nnMamba

(3) TimeMachine: A Time Series is Worth 4 Mambas for Long-term Forecasting(利用状态空间模型Mamba捕捉多元时间序列数据中的长期依赖关系)——用于时间序列任务!

论文地址https://arxiv.org/abs/2403.09898
代码地址https://github.com/Atik-Ahamed/TimeMachine

(4) MambaIR: A Simple Baseline for Image Restoration with State-Space Model(MambaIR:使用状态空间模型进行图像恢复的简单基线)——引入通道注意力和局部增强的即插即用Mamba模块

论文地址https://arxiv.org/abs/2402.15648
代码地址https://github.com/csguoh/MambaIR

(5) RSCaMa: Remote Sensing Image Change Captioning with State Space Model——RSCaMa(联合时空建模Mamba模块)-用于处理具有时空特性的数据,例如遥感图像变化检测、视频理解、时空预测等任务

论文地址https://arxiv.org/abs/2404.18895
代码地址https://github.com/Chen-Yang-Liu/RSCaMa

(6) MambaIR: A Simple Baseline for Image Restoration with State-Space Model——深度学习 | ECCV 2024 | mamba模块RSSG

论文地址https://arxiv.org/abs/2402.15648
代码地址https://github.com/csguoh/MambaIR

(7) Jamba: A Hybrid Transformer-Mamba Language Model(Jamba:混合 Transformer-Mamba 语言模型)——适用于CV任务和NLP 任务

论文地址https://arxiv.org/abs/2403.19887
代码地址https://huggingface.co/ai21labs/Jamba-v0.1

(8) VMamba: Visual State Space Model(VMamba:视觉状态空间模型)——图像分割任务 | 并行化视觉PVMamba即插即用模块,适用于医学图像分割任务,计算机视觉CV任务通用模块

论文地址https://arxiv.org/abs/2401.10166
代码地址https://github.com/MzeroMiko/VMamba

(9) CM-UNet: Hybrid CNN-Mamba UNet for Remote Sensing Image Semantic Segmentation(CM-UNet: 用于遥感图像语义分割的混合 CNN-Mamba UNet)——语义分割任务 | CSMamba解码器即插即用模块,适用于遥感语义分割任务,图像分割、目标检测等CV所有任务通用模块

论文地址https://arxiv.org/abs/2405.10530
代码地址https://github.com/XiaoBuL/CM-UNet

(10) SegMamba: Long-range Sequential Modeling Mamba For 3D Medical Image Segmentation(SegMamba: 用于 3D 医学图像分割的长距离顺序建模 Mamba)——可以应用在Mamba中的卷积模块,3d和2d版本,即插即用

论文地址https://arxiv.org/html/2401.13560v3
代码地址https://github.com/ge-xing/SegMamba

(11) MobileMamba: Lightweight Multi-Receptive Visual Mamba Network(MobileMamba:轻量级多接受性 Visual Mamba 网络)

论文地址https://arxiv.org/abs/2411.15941
代码地址https://github.com/lewandofskee/MobileMamba

(12) Wavelet-based Mamba with Fourier Adjustment for Low-light Image Enhancement(基于小波的 Mamba 与傅里叶调整在低照度图像增强中的应用)

论文地址https://arxiv.org/abs/2410.20314
代码地址https://github.com/mcpaulgeorge/WalMaFa
在这里插入图片描述

(13) MambaOut: Do We Really Need Mamba for Vision?——CVPR 2025

论文地址https://arxiv.org/abs/2405.07992
代码地址https://arxiv.org/abs/2410.20314

(14) EfficientViM: Efficient Vision Mamba with Hidden State Mixer based State Space Duality(EfficientViM:具有基于 Hidden State Mixer 的状态空间对偶性的高效视觉 Mamba)

论文地址https://arxiv.org/abs/2411.15241
代码地址https://github.com/mlvlab/EfficientViM

11. 扩散模型

(1) FreeU: Free Lunch in Diffusion U-Net——Free_UNet-无需训练,即插即用于扩散模型的改进U-Net结构
论文地址https://arxiv.org/abs/2309.11497
代码地址https://chenyangsi.top/FreeU/

12. 多模态

(1) PS-Mixer: A Polar-Vector and Strength-Vector Mixer Model for Multimodal Sentiment Analysis(PS-Mixer:用于多模态情感分析的极向量和强度向量混合器模型)——使得不同模态特征在水平和垂直方向上充分交互

论文地址https://www.sciencedirect.com/science/article/abs/pii/S0306457322003302
代码地址https://github.com/metaphysicser/PS-Mixer

(2) Bi-directional Adapter for Multi-modal Tracking(用于多模态跟踪的双向适配器)——Bi_direct_adapter(通用双向适配器)-来自AAAI2024!适用于多模态领域

论文地址https://arxiv.org/abs/2312.10611
代码地址https://github.com/SparkTempest/BAT

13. KAN

(1) KAN: Kolmogorov–Arnold Networks(Kolmogorov-Arnold 网络 (KAN))——KAN-缝合具体操作】

论文地址https://arxiv.org/abs/2404.19756
代码地址https://github.com/KindXiaoming/pykan

(2) SCKansformer: Fine-Grained Classification of Bone Marrow Cells via Kansformer Backbone and Hierarchical Attention Mechanisms(SCKansformer:通过 Kansformer Backbone 和分层注意力机制对骨髓细胞进行细粒度分类)——KAN+SCConv | SCKansformer

论文地址https://arxiv.org/abs/2406.09931
代码地址https://github.com/JustlfC03/SCKansformer

14. 上采样

(1) Learning to Upsample by Learning to Sample——ICCV23CV | 2维图像通用

论文地址https://arxiv.org/abs/2308.15085
代码地址https://github.com/tiny-smart/dysample

15. NLP

(1) CorNET: Deep Learning Framework for PPG-Based Heart Rate Estimation and Biometric Identification in Ambulant Environment(CorNET:在救护车环境中进行基于 PPG 的心率估计和生物特征识别的深度学习框架)——CorNet(即插即用NLP模块)-学习标签相关性,利用相关性知识输出增强标签预测

论文地址https://ieeexplore.ieee.org/document/8607019

16. 语音识别

(1) FAdam: Adam is a natural gradient optimizer using diagonal empirical Fisher information(FAdam: Adam 是一个使用对角经验 Fisher 信息的自然梯度优化器)——FAdam-即插即用优化器,适用于语音识别,NLP,CV领域

论文地址https://arxiv.org/abs/2405.12807
代码地址https://github.com/lessw2020/FAdam_PyTorch

17. 人体姿态估计

(1) SmoothNet: A Plug-and-Play Network for Refining Human Poses in Videos(SmoothNet:用于优化视频中人体姿势的即插即用网络)——SmoothNet(ECCV2022):适用于人体姿态估计领域的即插即用模块,可以跟任意的2D和3D姿态估计网络进行组合

论文地址https://arxiv.org/abs/2112.13715
代码地址https://github.com/cure-lab/SmoothNet

18. 特征融合

(1) Dynamic Feature Fusion for Semantic Edge Detection(用于语义边缘检测的动态特征融合)——DFF:可以缝合在transformer中的动态特征融合模块,适用于2D和3D分割任务

论文地址https://arxiv.org/abs/1902.09104
代码地址https://github.com/Lavender105/DFF

(2) HCF-Net: Hierarchical Context Fusion Network for Infrared Small Object Detection(HCF-Net: 用于红外小目标检测的分层上下文融合网络)——DASI:一种特征融合模块,即插即用,适用于目标检测等计算机视觉领域

论文地址https://arxiv.org/abs/2403.10778
代码地址https://github.com/zhengshuchen/HCFNet

(3) PnPNet: Pull-and-Push Networks for Volumetric Segmentation with Boundary Confusion(PnPNet:用于边界混淆的体积分割的拉推网络)——SDM:特征融合模块,即插即用,2D和3D均适用

论文地址https://arxiv.org/html/2312.08323v1
代码地址https://github.com/AlexYouXin/PnPNet

(4) DS-TransUNet:Dual Swin Transformer U-Net for Medical Image Segmentation(DS-TransUNet:用于医疗图像分割的双 Swin Transformer U-Net)——TIF:特征融合模块,可以在跳跃连接过程中使用

论文地址https://arxiv.org/abs/2106.06716
代码地址https://github.com/TianBaoGe/DS-TransUNet

(5) Image fusion in the loop of high-level vision tasks: A semantic-aware real-time infrared and visible image fusion network(高级视觉任务循环中的图像融合:语义感知的实时红外和可见光图像融合网络)——SFFusion:特征融合模块,2d和3d版本,附创新点的启发,提取和融合浅层特征

论文地址https://www.sciencedirect.com/science/article/abs/pii/S1566253521002542?via%3Dihub
代码地址https://github.com/Linfeng-Tang/SeAFusion

(6) DEA-Net: Single Image Dehazing Based on Detail-Enhanced Convolution and Content-Guided Attention(DEA-Net:基于细节增强卷积和内容引导注意力的单图像去雾)——图像去雾任务 | TIP2024顶会 | 低级特征和高级特征融合CGAFusion即插即用模块

论文地址https://ieeexplore.ieee.org/document/10411857
代码地址https://github.com/cecret3350/DEA-Net

(7) DuAT: Dual-Aggregation Transformer Network for Medical Image Segmentation(DuAT:用于医疗图像分割的双聚合 Transformer 网络)——PRCV2023 | 全局和局部空间特征融合GLSA即插即用模块,适用于医学图像分割、小目标检测、暗光增强,CV所有任务通用

论文地址https://arxiv.org/abs/2212.11677
代码地址https://github.com/Barrett-python/DuAT

(8) ConDSeg: A General Medical Image Segmentation Framework via Contrast-Driven Feature Enhancement(ConDSeg:通过对比度驱动特征增强的通用医学图像分割框架)——AAAI 2025

论文地址https://arxiv.org/abs/2412.08345
代码地址https://github.com/Mengqi-Lei/ConDSeg

19. AI+医学

(1) CLEEGN: A Convolutional Neural Network for Plug-and-Play Automatic EEG Reconstruction(CLEEGN:用于即插即用自动 EEG 重建的卷积神经网络)——CLEEGN:即插即用模块,适用于自动脑电图信号(EEG)重建,来自于24年2月份的论文

论文地址https://arxiv.org/abs/2210.05988
代码地址https://github.com/CECNL/CLEEGN

(2) GLSANet: Global-Local Self-Attention Network for Remote Sensing Image Semantic Segmentation(GLSANet: 用于遥感图像语义分割的全局-局部自注意力网络)——(PRCV 2023)深度学习即插即用空间聚合模块GLSA,医学图像分割

论文地址https://ieeexplore.ieee.org/document/10011428
代码地址https://github.com/EvilGhostY/MMRSSeg/blob/main/models/CGGLNet.py

(3) SvANet: A Scale-variant Attention-based Network for Small Medical Object Segmentation(SvANet:用于小型医疗对象分割的基于规模变体注意力的网络)——小型医学对象分割网络

论文地址https://arxiv.org/html/2407.07720v1
代码地址https://github.com/anthonyweidai/SvANet

(4) EMCAD: Efficient Multi-scale Convolutional Attention Decoding for Medical Image Segmentation(EMCAD:用于医学图像分割的高效多尺度卷积注意力解码)——CVPR 2024 | 医学图像分割 | 高效多尺度卷积注意力解码器EMCAD

论文地址https://arxiv.org/abs/2405.06880
代码地址https://github.com/SLDGroup/EMCAD

(5) DEFN: Dual-Encoder Fourier Group Harmonics Network for Three-Dimensional Indistinct-Boundary Object Segmentation(DEFN: 用于三维模糊边界对象分割的双编码器傅里叶群谐波网络)——三维医学图像分割和重建 | DEFN

论文地址https://arxiv.org/abs/2311.00483
代码地址https://github.com/IMOP-lab/DEFN-pytorch

(6) MSA 2 ^2 2Net: Multi-scale Adaptive Attention-guided Network for Medical Image Segmentation(用于医学图像分割的多尺度自适应注意力引导网络)——BMVC 2024 | 医学图像分割 | 多尺度自适应空间注意力门控MASAG

论文地址https://arxiv.org/abs/2407.21640
代码地址https://github.com/xmindflow/MSA-2Net

(7) Vision-LSTM: xLSTM as Generic Vision Backbone(xLSTM 作为通用视觉主干)——适用于医学图像分割领域

论文地址https://arxiv.org/abs/2406.04303
代码地址https://nx-ai.github.io/vision-lstm/

20. transformer或unet中用

(1) Dual Attention Network for Scene Segmentation(场景分割的双注意力网络)——DA_Block:即插即用模块,可缝合在transformer或unet中

论文地址https://arxiv.org/abs/1809.02983
代码地址https://github.com/junfu1115/DANet

21. 图像恢复

(1) Simple Baselines for Image Restoration(图像恢复的简单基线)——NAF:即插即用模块,适用于图像恢复领域

论文地址https://arxiv.org/abs/2204.04676
代码地址https://github.com/megvii-research/NAFNet

(2) DSAM: A deep learning framework for analyzing temporal and spatial dynamics in brain networks(DSAM:用于分析大脑网络中时间和空间动态的深度学习框架)——适用于图像恢复任务的注意力模块

论文地址https://www.sciencedirect.com/science/article/pii/S1361841525000106
代码地址https://github.com/bishalth01/DSAM
.
(3) Restoring Images in Adverse Weather Conditions via Histogram Transformer(通过 Histogram Transformer 在恶劣天气条件下恢复图像)

论文地址https://arxiv.org/abs/2407.10172
代码地址https://github.com/sunshangquan/Histoformer

(4) Adapt or Perish: Adaptive Sparse Transformer with Attentive Feature Refinement for Image Restoration(用于图像恢复的具有细心特征改进的自适应稀疏变换器)——CVPR 2024 | 图像恢复

论文地址https://ieeexplore.ieee.org/document/10657913
代码地址https://github.com/joshyZhou/AST

22. 轻量化

(1) MobileNetV4 – Universal Models for the Mobile Ecosystem(MobileNetV4 – 移动生态系统的通用模型)——MobileNetV4来啦,其中的UIB块

论文地址https://arxiv.org/abs/2404.10518
代码地址https://github.com/tensorflow/models/blob/master/official/vision/modeling/backbones/mobilenet.py

23. backbone

(1) Rewrite the Stars——元素相乘优于相加,全新backbone:StarNet(CVPR2024)

论文地址https://arxiv.org/abs/2403.19967
代码地址https://github.com/ma-xu/Rewrite-the-Stars

(2) GhostNetV2: Enhance Cheap Operation with Long-Range Attention——GhostModuleV1&V2:可以代替原有的卷积操作,即插即用

论文地址https://arxiv.org/abs/2211.12905v1
代码地址https://github.com/huawei-noah/Efficient-AI-Backbones/tree/master/ghostnetv2_pytorch

24. 图像分割

(1) UACANet: Uncertainty Augmented Context Attention for Polyp Segmentation(UACANet(不确定性增强的上下文注意力网络)是一种用于息肉分割的深度学习模型)——适用于图像分割任务

论文地址https://arxiv.org/abs/2107.02368
代码地址https://github.com/plemeri/UACANet

(2) SFFNet: A Wavelet-Based Spatial and Frequency Domain Fusion Network for Remote Sensing Segmentation(SFFNet: 用于遥感分割的基于小波的空间和频域融合网络)——深度学习遥感分割 | 基于小波的空间和频域融合网络SFFNet

论文地址https://arxiv.org/abs/2405.01992
代码地址https://github.com/yysdck/SFFNet

25. 图像超分

(1) FMB: a Functional Manipulation Benchmark for Generalizable Robotic Learning(FMB:一种通用机器人学习的功能操作基准)——轻量级即插即用模块FMB

论文地址https://arxiv.org/abs/2401.08553
代码地址https://functional-manipulation-benchmark.github.io/

(2) Spatially-Adaptive Feature Modulation for Efficient Image Super-Resolution(空间自适应特征调制,实现高效的图像超分辨率)——ICCV 2023

论文地址https://arxiv.org/abs/2302.13800
代码地址https://github.com/sunny2109/SAFMN

(3) Efficient Long-Range Attention Network for Image Super-resolution(用于图像超分辨率的高效远程注意力网络)——图像超分 | ECCV 2022 | 高效长程注意力ELAB

论文地址https://arxiv.org/abs/2203.06697
代码地址https://github.com/xindongzhang/ELAN

(4) Dual Aggregation Transformer for Image Super-Resolution(用于图像超分辨率的双聚合变压器)——图像超分 | ICCV 2023 | DAT

论文地址https://arxiv.org/abs/2308.03364
代码地址https://github.com/zhengchen1999/DAT

26. 多尺度融合

(1) MDFM: Multi-Decision Fusing Model for Few-Shot Learning(MDFM:用于小样本学习的多决策融合模型)——(TGRS 2024)深度学习多尺度差异融合模块MDFM,遥感变化检测

论文地址https://arxiv.org/abs/2112.00690

(2) D-Net: Dynamic Large Kernel with Dynamic Feature Fusion for Volumetric Medical Image Segmentation(D-Net:具有动态特征融合的动态大型内核,用于体积医学图像分割)——3D医学图像分割任务 | DFF多尺度动态特征融合模块,适用于3D医学图像分割,所有3D CV任务通用的特征融合模块

论文地址https://arxiv.org/abs/2403.10674
代码地址https://github.com/sotiraslab/DLK

(3) DETRs Beat YOLOs on Real-time Object Detection(DETR 在实时对象检测方面击败 YOLO)——CVPR 2024顶会 | CCFF跨尺度特征融合模块

论文地址https://arxiv.org/abs/2304.08069
代码地址https://zhao-yian.github.io/RTDETR/

27. 语义分割

(1) Context-Guided Spatial Feature Reconstruction for Efficient Semantic Segmentation(用于高效语义分割的上下文引导空间特征重建)——ECCV 2024 | 语义分割 | RCM模块和DPG头

论文地址https://arxiv.org/abs/2405.06228
代码地址https://github.com/nizhenliang/CGRSeg

(2) SCTNet: Single-Branch CNN with Transformer Semantic Information for Real-Time Segmentation(SCTNet:具有 Transformer 语义信息的单分支 CNN,用于实时分割)——语义分割任务 | AAAI2024顶会 | 具有语义信息的CFBConv卷积即插即用模块,适用于语义分割

论文地址https://arxiv.org/abs/2312.17071
代码地址https://github.com/xzz777/SCTNet

28. 目标检测

(1) FFCA-YOLO for Small Object Detection in Remote Sensing Images(FFCA-YOLO 用于遥感图像中小目标检测)——TGRS | 目标检测 | YOLO | 轻量级模块

论文地址https://ieeexplore.ieee.org/abstract/document/10423050
代码地址https://github.com/yemu1138178251/FFCA-YOLO

(2) MAGNet: Multi-scale Awareness and Global fusion Network for RGB-D salient object detection(MAGNet:用于 RGB-D 显著目标检测的多尺度感知和全局融合网络)——KBS | RGBD显著性目标检测 | MAGNet

论文地址https://www.sciencedirect.com/science/article/abs/pii/S0950705124007603
代码地址https://github.com/mingyu6346/MAGNet

29. 图像增强任务

(1) Burstormer: Burst Image Restoration and Enhancement Transformer(Burstormer:连拍图像恢复和增强转换器)——图像增强任务 | CVPR 2023顶会 | 多尺度特征对齐FARM即插即用模块,适用于图像去噪、暗光增强、图像恢复、遥感图像任务

论文地址https://arxiv.org/abs/2304.01194
代码地址https://github.com/akshaydudhane16/Burstormer

30. 图像生成

(1) SeD: Semantic-Aware Discriminator for Image Super-Resolution(SeD:用于图像超分辨率的语义感知判别器)——图像生成任务 | CVPR 2024顶会 | GAN | SeD语义感知判别器,适用于图像生成任务

论文地址https://arxiv.org/abs/2402.19387
代码地址https://github.com/lbc12345/SeD

31. 特征提取

(1) I 2 ^2 2U-Net: A dual-path U-Net with rich information interaction for medical image segmentation(用于医疗图像分割的双路径 U-Net,具有丰富的信息交互)——医学图像分割任务 | SCI 2024顶刊 | MFII 双分支信息交互提取图像特征模块,来自顶刊新的特征提取模块,所有CV2维任务通用的模块

论文地址https://www.sciencedirect.com/science/article/abs/pii/S136184152400166X
代码地址https://github.com/duweidai/I2U-Net

(2) MixDehazeNet : Mix Structure Block For Image Dehazing Network——用于图像去雾网络的混合结构块

论文地址https://arxiv.org/abs/2305.17654
代码地址https://github.com/AmeryXiong/MixDehazeNet

(3) SCConv: Spatial and Channel Reconstruction Convolution for Feature Redundancy——用于特征冗余的空间和通道重建卷积

论文地址https://ieeexplore.ieee.org/abstract/document/10204928
代码地址https://github.com/cheng-haha/ScConv

32. 模块轻量化

(1) YOLO‑Granada: a lightweight attentioned Yolo for pomegranates fruit detection——YOLO-Granada:用于石榴果实检测的轻量级 Attention Yolo

论文地址https://pubmed.ncbi.nlm.nih.gov/39039263/

(2) LUD-YOLO: A novel lightweight object detection network for unmanned aerial vehicle——LUD-YOLO:一种用于无人机的新型轻量级目标检测网络

论文地址https://www.sciencedirect.com/science/article/pii/S0020025524012805

(3) Reducing the Side-Effects of Oscillations in Training of Quantized YOLO Networks——减少量化 YOLO 网络训练中振荡的副作用

论文地址https://ar5iv.labs.arxiv.org/html/2311.05109

33. 损失函数优化

改进损失函数将IOU Loss替换为其他更高效的损失函数,如GIoU Loss、DIoU Loss等,可以减少预测框与真实框之间的误差

优化NMS策略:采用更先进的NMS算法,如Soft-NMS、Weighted NMS等,可以有效减少重复检测并提高检测精度

(1) A streamlined approach for intelligent ship object detection using EL-YOLO algorithm——一种使用 EL-YOLO 算法进行智能船舶目标检测的简化方法(EL-YOLO通过其创新的损失函数、特征融合技术和模型压缩策略,在保持轻量级的同时显著提高了目标检测的准确性和效率,特别是在低空小目标检测任务中表现出色。在VisDrone2019-DET和AI-TOD数据集上,与YOLOv5s相比,EL-YOLO在mAP50上分别实现了12.4%和1.3%的改进。与2023年提出的YOLOv8s相比,EL-YOLO在mAP50上分别实现了2.8%和10.7%的增长)

论文地址https://www.nature.com/articles/s41598-024-64225-y

(2) YOLO-FaceV2: A Scale and Occlusion Aware Face Detector(YOLO-FaceV2:缩放和遮挡感知人脸检测器)——YOLO-FaceV2通过引入RFE模块、SEAM注意力机制、Slide权重函数以及优化的锚点设计和损失函数,显著提升了在多尺度、遮挡以及样本不平衡问题上的检测性能,使其在WiderFace验证数据集上达到了SOTA性能。,其Easy、Medium和Hard子集上的检测结果分别为98.6%,97.9%和91.9%,实现了接近或超过当前最优(SOTA)的性能。

论文地址https://arxiv.org/abs/2208.02019
代码地址https://github.com/Krasjet-Yu/YOLO-FaceV2

34. 数据增强

  • 增加数据多样性
    • 使模型学习到不同角度和尺度的目标特征,提高对各种姿态目标的检测能力。
  • 使用复杂的数深度之眼整理据增强技术:
    • 如随机剪切、旋转、缩放、颜色变换等,以增加模型的鲁棒性。

(1) Source-Free Domain Adaptation for YOLO Object Detection()——ECCV2024,SF-YOLO是一种基于YOLO系列单发探测器的源自由领域适应(SFDA)方法,它采用了教师-学生框架和目标领域特定的数据增强,以及一种新的通信机制来稳定训练,并减少对标注目标数据的依赖。SF-YOLOv5的参数值和浮点运算次数(FLOPs)相比于YOLOv5s分别减少了68.2%和12.7%,表明SF-YOLOv5在保持或提升性能的同时,能够以更少的计算资源实现更快的推理速度。

论文地址https://arxiv.org/abs/2409.16538
代码地址https://github.com/vs-cv/sf-yolo

(2) Data Augmentation for Object Detection via Controllable Diffusion Models(通过可控扩散模型进行对象检测的数据增强)——这篇论文提出了一种基于可控扩散模型和CLIP的数据增强方法,用于改进目标检测任务中YOLO系列检测器的性能。该方法通过生成合成图像并结合类别校准的CLIP分数进行后过滤,以提高目标检测模型的性能。在COCO数据集的5/10/30-shot少量样本设置下,使用该数据增强方法可以将YOLOX检测器的mAP(平均精度均值)分别提高18.0%、15.6%和15.9%

论文地址https://ieeexplore.ieee.org/document/10484172
代码地址https://github.com/FANGAreNotGnu/ControlAug

35. 模型训练策略优化

比如与迁移学习结合:利用在大规模图像数据集上预训练的YOLO模型作为起点,通过迁移学 习技术进行微调,可以提升训练效率和识别性能。

(1) MODIPHY: Multimodal Obscured Detection for IoT using PHantom Convolution-Enabled Faster YOLO——ICIP24 CCF-B类,YOLO Phantom是一个为资源受限环境设计的轻量级目标检测模型,它通过结合迁移学习和新颖的Phantom Convolution块,在保持高准确性的同时显著提高了检测速度。与YOLOv8n等其他模型相比,YOLO Phantom在RGB和热成像检测的FPS上分别实现了17%和14%的提升,并且在跨模态性能测试中展现了卓越的性能,这表明了其在多模态目标检测任务中的有效性和优越性。

论文地址https://arxiv.org/abs/2402.07894
代码地址https://github.com/shubha07m/On-device-computer-vision-experiments-with-IoT

36. 多模态融合:(数据处理+模型架构优化)

结合语音、文本等其他模态信息,采用多模态学习方法进行手势识别,以更全面地捕捉人类的情感和意图。

(1) SuperYOLO: Super Resolution Assisted Object Detection in Multimodal Remote Sensing Imagery——多模态遥感影像中的超分辨率辅助目标检测

论文地址https://arxiv.org/abs/2209.13351
代码地址https://github.com/icey-zhang/SuperYOLO

37. 特定场深度之眼整理景优化

根据应用场景的特点和需求,对YOLO进行针对性的改进。例如,在红外成像、小目标检测等场景中,可以通过调整网络结构或参数来提升模型的适应性和检测效果。

(1) Z-YOLOv8s-based approach for road object recognition in complex traffic scenarios(基于 Z-YOLOv8s 的复杂交通场景下道路物体识别方法)——Z-YOLOv8s 并非单纯通过重参数化来改进 YOLOv8s,而是结合了重参数化、注意力机制、小目标检测优化等多种技术手段,从而在复杂交通场景中实现了更高的检测精度和更好的实时性。​检测速度:快了 6.3 倍(BDD100K)。mAP@0.5:提升了 27%(BDD100K)和 26.2%(KITTI)。

论文地址https://www.sciencedirect.com/science/article/pii/S1110016824007300

(2) Efficient Detection Framework Adaptation for Edge Computing: A Plug-and-play Neural Network Toolbox Enabling Edge Deployment(面向边缘计算的高效检测框架适配:一种支持边缘部署的即插即用神经网络工具箱)——论文通过重参数化、稀疏交叉注意力和高效的预测头等改进,显著提升了YOLOv8在边缘计算场景下的性能和适应性。这些改进不仅降低了模型的计算复杂度和参数量,还增强了模型的检测精度和实时性,特别适用于需要低延迟和高精度的小目标检测任务。相比YOLOv8-s,ED-YOLO的参数量减少了17%,计算复杂度降低了23%。

论文地址https://arxiv.org/abs/2412.18230
代码地址https://github.com/word-ky/Edge-TOOLBOX

(3) An efficient re-parameterization feature pyramid network on YOLOv8 to the detection of steel surface defect(YOLOv8 上的高效再参数化特征金字塔网络用于钢材表面缺陷检测)——2区,文章通过重参数化技术以及其他优化手段对YOLOv8进行了改进,成功构建了一个轻量级且高效的钢材表面缺陷检测模型。这种改进不仅提升了检测性能,还显著减少了模型的计算量和参数量,使其更适合在实际工业场景中应用。在NEU-DET上,LDE-YOLO达到了80.8 mAP和75.5 FPS,相比YOLOv8l提升了2.5 mAP,同时计算量(FLOPs)减少了60.2%,参数量减少了49.1%。

论文地址https://www.sciencedirect.com/science/article/abs/pii/S0925231224015467

(4) YOLOE: Real-Time Seeing Anything——清华团队新模型YOLOE:一句话圈出图中万物,实时开放检测分割零门槛!YOLOE通过创新的RepRTA、SAVPE和LRPC策略,在保持高推理效率和低训练成本的同时,显著提升了模型在多种开放提示机制下的目标检测和分割性能。它不仅在标准数据集上取得了优异的零样本性能,还在跨数据集迁移时展现出强大的适应性,为实时开放提示驱动的视觉任务提供了一个高效且统一的解决方案,有望推动相关领域的进一步发展。与GenerateU相比,在无提示场景下,YOLOE-v8-L的AP提升了0.4,APr提升了3.5,且参数量减少6.3倍,推理速度提升了53倍。

论文地址https://arxiv.org/abs/2503.07465
代码地址https://github.com/THU-MIG/yoloe

38. 新技术结合

(1) Mamba YOLO: A Simple Baseline for Object Detection with State Space Model——Mamba YOLO 是一种基于状态空间模型(SSM)的新型目标检测方法,旨在解决 Transformer 结构带来的计算复杂度问题。与传统的 YOLO 系列相比,Mamba YOLO 引入了线性复杂度的 SSM,从而显著降低了计算负担。

论文地址https://arxiv.org/abs/2406.05835
代码地址https://github.com/HZAI-ZJNU/Mamba-YOLO

(2) Mamba-YOLO-World: Marrying YOLO-World with Mamba for Open-Vocabulary Detection(Mamba-YOLO-World:将 YOLO-World 与 Mamba 相结合以进行开放词汇检测)——Mamba-YOLO-World 是一种新颖的基于YOLO的开放词汇检测(OVD)模型,旨在检测超出预定义类别的物体。YOLO-World作为首个将YOLO系列集成到OVD中的模型,非常适合优先考虑速度和效率的场景。

论文地址https://arxiv.org/abs/2409.08513
代码地址https://github.com/Xuan-World/Mamba-YOLO-World

(3) FER-YOLO-Mamba: Facial Expression Detection and Classification Based on Selective State Space(FER-YOLO-Mamba: 基于选择性状态空间的面部表情检测和分类)——FER-YOLO-Mamba 是一种创新的面部表情识别(FER)模型,它结合了 Mamba 和 YOLO 技术的原理,以实现高效的面部表情图像识别和定位。传统的FER方法通常依赖于视觉信息,这些方法在预处理、特征提取和多阶段分类过程中存在一些局限性,不仅增加了计算复杂性,还需要大量的计算资源。

论文地址https://arxiv.org/abs/2405.01828
代码地址https://github.com/SwjtuMa/FER-YOLO-Mamba

(4) SOAR: Advancements in Small Body Object Detection for Aerial Imagery Using State Space Models and Programmable Gradients(SOAR:使用状态空间模型和可编程梯度进行航空影像小体物体检测的进步)——本文介绍了一种用于航空图像中小目标检测的先进方法SOAR,该方法利用状态空间模型(State Space Models, SSM)和可编程梯度信息(Programmable Gradients Information, PGI)来提高小目标的检测和分割能力。研究者们采用了轻量级的YOLO v9架构,并结合了SAHI框架和Vision Mamba模型,该模型通过位置嵌入和新颖的双向状态空间模型实现精确的视觉理解。实验结果表明,该方法在检测精度和处理效率上都有显著提升。

论文地址https://arxiv.org/abs/2405.01699
代码地址https://github.com/yash2629/S.O.A.R

(5) YOLO-Mamba: object detection method for infrared aerial images(YOLO-Mamba:用于红外航拍图像的目标检测方法)——本文提出了一种名为YOLO-Mamba的红外航空图像目标检测方法,旨在解决红外图像中的目标检测问题,特别是在图像模糊和噪声方面。该方法结合了Mamba模型和注意力机制,提出了一个新的基于Mamba的注意力模块(Mamba Block Attention Module, MBAM),用于改善算法对图像关键区域的关注能力,并减少冗余信息的影响。

论文地址https://link.springer.com/article/10.1007/s11760-024-03507-4

(6) Fusion-Mamba for Cross-modality Object Detection——本文提出了一种名为Fusion-Mamba的跨模态目标检测方法,用于改善无人机(UAV)航空图像中目标尺寸过小且特征信息有限的问题。该方法通过在隐藏状态空间中关联跨模态特征,利用改进的Mamba模型和门控机制来减少跨模态特征之间的差异,并增强融合特征的表示一致性。Fusion-Mamba方法的核心在于设计的Fusion-Mamba块(FMB),它包含两个模块:State Space Channel Swapping (SSCS)模块用于浅层特征融合,Dual State Space Fusion (DSSF)模块则在隐藏状态空间中实现深层融合。​
在LLVIP数据集上,Fusion-Mamba方法基于YOLOv5和YOLOv8的backbone分别取得了96.8%和97.0%的mAP50​

论文地址https://arxiv.org/abs/2404.09146
代码地址https://github.com/PSRben/FusionMamba

(7) DMM: Disparity-guided Multispectral Mamba for Oriented Object Detection in Remote Sensing(DMM: 用于遥感定向目标检测的视差引导多光谱 Mamba)——本文提出了一种名为DMM(Disparity-guided Multispectral Mamba)的多光谱定向目标检测框架,用于遥感领域。该框架包括一个基于Mamba的交叉模态融合模块(DCFM),一个多尺度目标感知注意力模块(MTA),以及一个目标先验感知(TPA)辅助任务。DCFM模块利用RGB和IR图像之间的视差信息来适应性地融合特征,减少模态间冲突。MTA模块旨在通过聚焦RGB模态内的相关目标区域来增强特征表示,解决模态内变化。TPA辅助任务利用单模态标签引导MTA模块的优化,确保其聚焦于目标及其局部上下文。在DroneVehicle和VEDAI数据集上的实验表明,该方法在保持计算效率的同时,超越了现有的最先进方法。

论文地址https://arxiv.org/abs/2407.08132
代码地址https://github.com/Another-0/DMM

(8) Integer-Valued Training and Spike-Driven Inference Spiking Neural Network for High-performance and Energy-efficient Object Detection(用于高性能和高能效目标检测的整数值训练和尖峰驱动推理尖峰神经网络)——这篇论文提出了一个名为SpikeYOLO的脑启发式尖峰神经网络(SNN)架构,旨在缩小SNN和人工神经网络(ANN)在目标检测任务上的性能差距。SpikeYOLO通过简化YOLO系列的复杂模块设计,并结合元SNN块来构建模型。此外,论文还提出了一种新的尖峰神经元——整数泄漏积分发放(I-LIF),它在训练时激活整数值,而在推理时通过扩展虚拟时间步来保持尖峰驱动,从而减少量化误差。在静态COCO数据集上,SpikeYOLO达到了66.2%的mAP@50和48.9%的mAP@50:95,分别比之前的SNN最高水平提高了15.0%和18.7%。在神经形态Gen1数据集上,SpikeYOLO实现了67.2%的mAP@50,比具有相同架构的ANN模型高出2.5%,并且能效提高了5.7倍。

论文地址https://arxiv.org/abs/2407.20708
代码地址https://github.com/BICLab/SpikeYOLO

39. 基于Transformer的目标检测改进

(1) RF-DETR——RF-DETR是Roboflow推出的实时目标检测模型。RF-DETR是首个在COCO数据集上达到60+平均精度均值(mAP)的实时模型,同时保持25帧/秒以上的实时性能,打破了传统CNN模型在精度与速度上的权衡困局。性能优于现有的目标检测模型。RF-DETR结合LW-DETR与预训练的DINOv2主干,具备强大的领域适应性。RF-DETR支持多分辨率训练和ONNX导出适配边缘计算设备,根据需要在精度和延迟间灵活权衡。RF-DETR提供预训练检查点,方便用户基于迁移学习在自定义数据集上进行微调。

项目官网https://blog.roboflow.com/rf-detr/
代码地址https://github.com/roboflow/rf-detr
在线Demo地址https://huggingface.co/spaces/SkalskiP/RF-DETR

(2) A Simple yet Effective Network based on Vision Transformer for Camouflaged Object and Salient Object Detection(基于 Vision Transformer 的简单而有效的网络,用于伪装物体和突出物体检测)——本文提出了一种基于度之眼整理Vision Transformer(ViT)的简单而有效的网络(SENet),用于伪装目标检测(COD)和显著目标检测(SOD)任务。SENet采用非对称的ViT编码器-解码器结构,通过引入局部信息捕获模块(LICM)和动态加权损失函数(DW Loss),在两个任务上均取得了优异的性能

论文地址https://arxiv.org/abs/2402.18922
代码地址https://github.com/linuxsino/SENet

(3) RT-DETRv3: Real-time End-to-End Object Detection with Hierarchical Dense Positive Supervision(RT-DETRv3: 具有分层密集主动监督的实时端到端目标检测)——RT-DETRv3 是一种基于 Transformer 的实时端到端目标检测算法,通过引入层次化的密集正样本监督方法,包括 CNN 辅助分支、自注意力扰动策略和共享权重解码器分支,显著提升了模型的训练效率和检测性能,同时保持了实时推理速度。

论文地址https://arxiv.org/abs/2409.08475
代码地址https://github.com/clxia12/RT-DETRv3

(4) Low-Rank Adaption on Transformer-based Oriented Object Detector for Satellite Onboard Processing of Remote Sensing Images——论文提出了一种名为 LoRA-Det 的方法,通过在 Transformer 基础的目标检测模型中引入低秩适应(LoRA)模块,实现了参数高效的微调。该方法通过训练低秩矩阵参数,并将其与原始模型的权重矩阵通过乘法和加法整合,从而在仅更新少量权重的情况下,使模型适应新的数据分布。LoRA-Det 结合了参数高效微调和全微调的策略,能够在保持实时推理速度的同时,显著提升模型性能。LoRA-Det 仅通过更新少量参数(约 12.4%),就能达到接近全微调模型的性能(97% 至 100%),显著提升了模型的泛化能力和鲁棒性。这种方法不仅减少了模型训练的计算资源需求,还加快了模型训练迭代速度,为卫星载荷上的实时目标检测提供了一种高效解决方案。

论文地址https://arxiv.org/abs/2406.02385
代码地址https://github.com/fudanxu/LoRA-Det

(5) TransRAD: Retentive Vision Transformer for Enhanced Radar Object Detection(TransRAD: 用于增强雷达目标检测的保持视觉变压器)——TransRAD 通过利用 Retentive Vision Transformer(RMT)和显式的空间先验信息,显著提升了雷达目标检测的性能。该模型不仅在 3D 雷达目标检测任务中取得了最高的准确率,还在 2D 雷达目标检测任务中表现出色,同时保持了快速的推理速度和较低的计算复杂度。此外,TransRAD 通过引入位置感知的非极大值抑制(LA-NMS)方法,有效解决了雷达目标检测中不同类别边界框重叠的问题,进一步提高了检测的准确性和鲁棒性。

论文地址https://arxiv.org/abs/2501.17977
代码地址https://github.com/radar-lab/TransRAD

(6) Dynamic Object Queries for Transformer-based Incremental Object Detection(ICASSP 2025)——DyQ-DETR 通过动态扩展目标查询和解耦的自注意力机制,显著提升了增量目标检测的性能,有效解决了灾难性遗忘问题。在 COCO 2017 数据集的多个设置下,DyQ-DETR 均显著优于现有方法,特别是在非示例(non-exemplar)场景下,其优势更为明显。此外,通过风险平衡的部分校准,DyQ-DETR 进一步优化了示例选择和模型校准过程,提高了模型的稳定性和适应性。​

论文地址https://arxiv.org/abs/2407.21687
代码地址https://github.com/THUzhangjic/DyQ-DETR

(7) DATR: Unsupervised Domain Adaptive Detection Transformer with Dataset-Level Adaptation and Prototypical Alignment(DATR: 具有数据集级自适应和原型对齐的无监督域自适应检测转换器)——DATR 通过引入类原型对齐模块(CPA)和数据集级对齐方案(DAS),显著提升了目标检测模型在不同域之间的适应性和泛化能力。在多个跨域目标检测场景中,DATR 均表现出色,特别是在天气适应、合成到真实场景适应和场景适应任务中,分别达到了 52.8%、66.3% 和 41.9% 的 mAP,显著优于现有方法。此外,DATR 结合自训练框架进一步减轻了域偏移问题,通过伪标签的监督学习进一步优化了检测性能。

论文地址https://arxiv.org/abs/2405.11765
代码地址https://github.com/h751410234/DATR

(8) Scene Adaptive Sparse Transformer for Event-based Object Detection——论文提出了一种新型的基于事件相机的目标检测架构——Scene Adaptive Sparse Transformer(SAST)。SAST通过窗口-令牌共稀疏化显著降低了计算开销,并利用创新的评分模块、选择模块和掩码稀疏窗口自注意力机制,实现了对场景复杂度的自适应稀疏性优化,平衡了性能与计算成本。实验结果表明,SAST在1Mpx和Gen1数据集上均实现了最高的mAP,同时保持了显著的计算效率。SAST-CB(使用上下文广播操作的SAST变体)在1Mpx数据集上进一步将mAP提升到 48.7%,仅使用了AEC(一种基于卷积网络的方法)11%的FLOPs。

论文地址https://arxiv.org/abs/2404.01882
代码地址https://github.com/Peterande/SAST

(9) A DeNoising FPN With Transformer R-CNN for Tiny Object Detection(带有 Transformer R-CNN 的去噪 FPN,用于微小物体检测)——DNTR通过减少FPN中的噪声和利用Transformer的自注意力机制,显著提升了小目标检测的性能。这项研究为小目标检测领域提供了新的解决方案,并在多个基准数据集上取得了优异的性能。​

论文地址https://arxiv.org/abs/2406.05755
代码地址https://github.com/hoiliu-0801/DNTR

(10) PTT: Point-Trajectory Transformer for Efficient Temporal 3D Object Detection——论文提出了一种名为 Point-Trajectory Transformer (PTT) 的新框架,用于高效的时序三维(3D)目标检测。PTT 通过仅使用当前帧的点云和历史轨迹作为输入,最小化了内存占用,并引入了长短期记忆模块和未来感知模块来增强特征表示。该框架通过点-轨迹聚合器有效地整合了点云特征和轨迹特征,从而提高了检测性能。

论文地址https://arxiv.org/abs/2312.08371
代码地址https://github.com/kuanchihhuang/PTT

(11) Hierarchical Graph Interaction Transformer with Dynamic Token Clustering for Camouflaged Object Detection——HGINet 通过创新的区域感知令牌聚焦注意力(RTFA)、层次化图交互Transformer(HGIT)和置信度聚合特征融合(CAFF)模块,显著提升了伪装目标检测的性能。在多个基准数据集上,HGINet 的性能优于现有的最先进方法,证明了其在伪装目标检测任务中的有效性和优越性​

论文地址https://arxiv.org/abs/2408.15020
代码地址https://github.com/Garyson1204/HGINet

(12) Generative Transformer for Accurate and Reliable Salient Object Detection——论文提出了一种名为 Generative Transformer 的新框架,用于显著目标检测(Salient Object Detection, SOD)。该框架利用Transformer的全局上下文建模能力来提高检测的准确性,并通过引入 Inferential Generative Adversarial Network (iGAN) 来估计预测的不确定性,从而提升模型的可靠性。此外,针对RGB-D显著目标检测中的深度数据分布不一致问题,论文还提出了一个辅助深度模块,通过自监督学习来建模深度数据的分布。

论文地址https://arxiv.org/abs/2104.10127
代码地址https://github.com/fupiao1998/TransformerSOD

(13) EGSST: Event-based Graph Spatiotemporal Sensitive Transformer for Object Detection——本文提出了一种名为EGSST(Event-based Graph Spatiotemporal Sensitive Transformer)的新型框架,专门用于处理事件相机数据以进行目标检测。该框架通过图结构建模事件数据,保留了原始的时间信息并捕捉空间细节,并引入了时空敏感模块(SSM)和自适应时间激活控制器(TAC),以模仿人类视觉系统对动态变化的注意力分配,从而高效利用计算资源。此外,结合轻量级多尺度线性视觉Transformer(LViT),显著提升了处理效率。与现有的先进模型(如AEC、RVT-B等)相比,EGSST-B在Gen1数据集上的处理时间减少了约50%,而EGSST-E在1Mpx数据集上的处理时间减少了约20%。

论文地址https://openreview.net/pdf/ba38507200ff943655bccd3db5735db18b7830d7.pdf
代码地址https://github.com/w720s9l8lk/egsst-pre

(14) Cross-Layer Feature Pyramid Transformer for Small Object Detection in Aerial Images——本文提出了一种名为 Cross-Layer Feature Pyramid Transformer (CFPT) 的新型特征金字塔网络,专门用于航拍图像中小目标的检测。CFPT 通过两个精心设计的注意力模块——Cross-Layer Channel-Wise Attention (CCA) 和 Cross-Layer Spatial-Wise Attention (CSA)——实现跨层特征的交互,并引入了 Cross-Layer Consistent Relative Positional Encoding (CCPE) 来增强位置感知能力。该网络避免了复杂的上采样操作,显著提高了计算效率。

论文地址https://arxiv.org/abs/2407.19696
代码地址https://github.com/duzw9311/CFPT

(15) TransGOP: Transformer-Based Gaze Object Prediction——本文提出了一种基于Transformer的凝视目标预测(Gaze Object Prediction, GOP)方法,名为 TransGOP。该方法通过引入Transformer架构,利用其长距离建模能力来建立人头与凝视目标之间的关系,从而提高预测准确性。TransGOP 的 mSoC 指标达到了 92.8%,相比之前的最佳方法 GaTector 提升了 24.9%

论文地址https://ojs.aaai.org/index.php/AAAI/article/view/28883
代码地址https://github.com/chenxi-Guo/TransGOP

(16) DPFT: Dual Perspective Fusion Transformer for Camera-Radar-based Object Detection——一种名为 Dual Perspective Fusion Transformer (DPFT) 的方法,它用于基于摄像头和雷达数据融合的自动驾驶车辆的目标检测。​DPFT方法在K-Radar数据集上实现了56.1%的3D目标检测平均精度(mAP),在恶劣天气条件下表现出色,并在保持低成本的同时与摄像头-激光雷达融合方法性能相当。

论文地址https://arxiv.org/abs/2404.03015
代码地址https://github.com/TUMFTM/DPFT

(17) GM-DETR: Generalized Muiltispectral DEtection TRansformer with Efficient Fusion Encoder for Visible-Infrared Detection(GM-DETR: 广义多光谱检测传感器,带有用于可见光-红外探测的高效融合编码器)——论文介绍了一种名为 GM-DETR(Generalized Multispectral DEtection TRansformer)的目标检测方法,它使用了 Transformer 架构来实现多光谱(可见光-红外)数据的融合和目标检测。​GM-DETR在FLIR和深度之眼整理LLVIP数据集上实现了83.9%的mAP50精度,并且在处理模态丢失的情况时,与单模态基线相比,性能仅下降了1.8%(IR模态)和5.4%(RGB模态),显示出良好的鲁棒性和泛化能力。

论文地址https://ieeexplore.ieee.org/abstract/document/10677932
代码地址https://github.com/yiming-shaw/GM-DETR

(18) Uni3DETR: Unified 3D Detection Transformer——论文介绍了一个名为Uni3DETR的统一3D检测框架,它使用基于Transformer的网络结构来同时处理室内和室外的3D目标检测任务。​Uni3DETR在室内SUN RGB-D数据集上达到了67.0%的AP25和50.3%的AP50,室外KITTI数据集上在中等难度的汽车类别上达到了86.7%的AP,并且在nuScenes数据集上取得了61.7%的mAP和68.5%的NDS,展现了在不同环境下优秀的泛化和检测能力。​

论文地址https://arxiv.org/abs/2310.05699
代码地址https://github.com/zhenyuw16/uni3detr

(19) Transformer-based assignment decision network for multiple object tracking——论文介绍了一种基于Transformer架构的方法,用于多目标跟踪(MOT)。​在MOT17数据集上,TADN方法在公共检测赛道上达到了54.6%的MOTA(多目标跟踪准确率),在UA-DETRAC数据集上达到了23.7%的MOTA,展现出了优越的跟踪性能,尤其是在处理数据关联方面,相比其他方法在推理时无需显式的优化步骤。

论文地址https://arxiv.org/abs/2208.03571
代码地址https://github.com/psaltaath/tadn-mot

(20) Small object detection algorithm incorporating swin transformer for tea buds.——文章介绍了一种名为STF-YOLO(Small Target Detection with Swin Transformer and Focused YOLO)的目标检测算法,它结合了Swin Transformer模块和YOLOv8网络来提高对小目标的检测能力。​STF-YOLO模型在茶芽数据集上达到了91.5%的准确率和89.4%的mAP,显著优于其他检测器,证明了其在小目标检测中的卓越性能。

论文地址https://europepmc.org/article/PMC/PMC10956868
代码地址https://github.com/ssrzero123/STF-YOLO

(21) RT-DETRv3: Real-time End-to-End Object Detection with Hierarchical Dense Positive Supervision——RT-DETRv3: 具有分层密集主动监督的实时端到端目标检测

论文地址https://arxiv.org/abs/2409.08475
代码地址https://github.com/clxia12/RT-DETRv3

(22) DETR(首次提出),ECCV’20,End-to-End Object Detection with Transformers(使用 Transformer 进行端到端对象检测)——将 Transformer 结构引入目标检测流程

论文地址https://arxiv.org/abs/2005.12872
代码地址https://github.com/facebookresearch/detr

(23) Deformable DETR: Deformable Transformers for End-to-End Object Detection——ICLR21,端到端目标检测的 Deformable Transformers

论文地址https://arxiv.org/abs/2010.04159
代码地址https://github.com/fundamentalvision/Deformable-DETR

(24) Efficient DETR: Improving End-to-End Object Detector with Dense Prior——减少了 Transformer 块数,加速网络收敛​

论文地址https://arxiv.org/abs/2104.01318

(25) PnP-DETR: Towards Efficient Visual Analysis with Transformers——ICCV21,PnP-DETR:使用 Transformer 实现高效的可视化分析

论文地址https://arxiv.org/abs/2109.07036
代码地址https://github.com/twangnh/pnp-detr

(26) Sparse DETR: Efficient End-to-End Object Detection with Learnable Sparsity——ICLR22,Sparse DETR是一种高效的端到端目标检测模型,它通过学习稀疏性来优化编码器的token更新,从而提高检测性能和计算效率。这种模型基于transformer编码器-解码器架构,通过选择性更新预期被解码器引用的token,帮助模型更有效地检测目标。

论文地址https://arxiv.org/abs/2111.14330
代码地址https://github.com/kakaobrain/sparse-detr

(27) UP-DETR: Unsupervised Pre-training for Object Detection with Transformers——TPAMI 2022 & CVPR2021 Oral,为 DETR 引入无监督预训练方法

论文地址https://arxiv.org/abs/2011.09094
代码地址https://github.com/dddzg/up-detr

(28) Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions——Pyramid Vision Transformer:无需卷积即可进行密集预测的多功能主干,为 ViT 引入特征金字塔结构​

论文地址https://arxiv.org/abs/2102.12122
代码地址https://github.com/whai362/PVT

(29) Grounded Language-Image Pre-training——CVPR’22,使用文本-图像多模态预训练模型的算法

论文地址https://arxiv.org/abs/2112.03857
代码地址https://github.com/microsoft/GLIP

(30) DAB-DETR: Dynamic Anchor Boxes are Better Queries for DETR——ICLR22,引入更好的空间先验知识​

论文地址https://arxiv.org/abs/2201.12329
代码地址https://github.com/IDEA-Research/DAB-DETR

(31) DN-DETR: Accelerate DETR Training by Introducing Query DeNoising——DN-DETR是一种新颖的去噪训练方法,旨在加速DETR(Detection Transformer)的训练,并深入理解DETR类方法收敛缓慢的问题。研究表明,收敛缓慢是由于二分图匹配的不稳定性导致的,这在早期训练阶段会引起不一致的优化目标。

论文地址https://arxiv.org/abs/2203.01305
代码地址https://github.com/IDEA-Research/DN-DETR

(32) DETRs with Collaborative Hybrid Assignments Training——ICCV 2023

论文地址https://arxiv.org/abs/2211.12860
代码地址https://github.com/Sense-X/Co-DETR?tab=readme-ov-file

(33) Global Context Vision Transformers——ICML23
论文地址https://arxiv.org/abs/2206.09959
代码地址https://github.com/NVlabs/GCViT

(34) Towards Efficient Use of Multi-Scale Features in Transformer-Based Object Detectors——CVPR23

论文地址https://arxiv.org/abs/2208.11356

40. 基于多层感知机的目标检测改进

(1) LP-DINO: Category Modeling and Query Graphing with Deep MLP for Object Detection——IJCAI24

论文地址https://www.ijcai.org/proceedings/2024/0067.pdf
代码地址https://github.com/Med-Process/MLP-DINO/tree/main

(2) ConvMLP: Hierarchical Convolutional MLPs for Vision——ConvMLP:用于视觉的分层卷积 MLP

论文地址https://arxiv.org/abs/2109.04454
代码地址https://github.com/SHI-Labs/Convolutional-MLPs

(3) NeRF-Det: Learning Geometry-Aware Volumetric Representation for Multi-View 3D Object Detection——NeRF-Det: 学习几何感知体积表示,用于多视图 3D 目标检测

论文地址https://arxiv.org/abs/2307.14620
代码地址https://github.com/facebookresearch/NeRF-Det

(4) Improved MLP Point Cloud Processing with High-Dimensional Positional Encoding——使用高维位置编码改进的 MLP 点云处理

论文地址https://ojs.aaai.org/index.php/AAAI/article/view/28625
代码地址https://github.com/zouyanmei/HPENet?tab=readme-ov-file

(5) Spatial-wise Dynamic Distillation for MLP-like Efficient Visual Fault Detection of Freight Trains——用于货运列车类似 MLP 的高效视觉故障检测的空间动态蒸馏

论文地址https://arxiv.org/abs/2312.05832
代码地址https://github.com/MVME-HBUT/SDD-FTI-FDet

(6) MLP-Mixer: An all-MLP Architecture for Vision——NeurIPS’21,MLP-Mixer:用于视觉的全 MLP 架构

论文地址https://arxiv.org/abs/2105.01601
代码地址https://github.com/google-research/vision_transformer

(7) AS-MLP: An Axial Shifted MLP Architecture for Vision——AS-MLP:用于视觉的轴向移位 MLP 架构,ICLR22

论文地址https://arxiv.org/abs/2107.08391
代码地址https://github.com/svip-lab/AS-MLP

(8) CycleMLP: A MLP-like Architecture for Dense Prediction——CycleMLP:用于密集预测的类似 MLP 的架构,ICLR’22 Oral

论文地址https://arxiv.org/abs/2107.10224
代码地址https://github.com/ShoufaChen/CycleMLP

(9) Hire-MLP: Vision MLP via Hierarchical Rearrangement——Hire-MLP:通过分层重排实现 Vision MLP,CVPR’22

论文地址https://arxiv.org/abs/2108.13341
代码地址https://github.com/ggjy/Hire-Wave-MLP.pytorch

(10) An Image Patch is a Wave: Phase-Aware Vision MLP——CVPR’22

论文地址https://arxiv.org/abs/2111.12294
代码地址https://github.com/huawei-noah/Efficient-AI-Backbones/tree/master/wavemlp_pytorch and https://gitee.com/mindspore/models/tree/master/research/cv/wave_mlp

(11) RaMLP: Vision MLP via Region-aware Mixing——IJCAI23

论文地址https://www.ijcai.org/proceedings/2023/111
代码地址https://github.com/xiaolai-sqlai/RaMLP/blob/main/README.md

41. 基于扩散模型的目标检测改进

(1) DiffusionDet: Diffusion Model for Object Detection——DiffusionDet:用于对象检测的扩散模型,ICCV23

论文地址https://arxiv.org/abs/2211.09788
代码地址https://github.com/ShoufaChen/DiffusionDet

(2) DiffusionDet: Diffusion Model for Object Detection

论文地址https://arxiv.org/abs/2211.09788
代码地址https://github.com/ShoufaChen/DiffusionDet

(3) Diff3DETR:Agent-based Diffusion Model for Semi-supervised 3D Object Detection——ECCV24,Diff3DETR:基于智能体的半监督 3D 目标检测扩散模型

论文地址https://arxiv.org/abs/2408.00286

(4) MonoDiff: Monocular 3D Object Detection and Pose Estimation with Diffusion Models——CVPR2024,MonoDiff:使用扩散模型进行单目 3D 目标检测和姿态估计

论文地址https://ieeexplore.ieee.org/document/10658487
代码地址https://dylran.github.io/monodiff.github.io/

(5) D4: Text-guided diffusion model-based domain adaptive data augmentation for vineyard shoot detection——D4: 用于葡萄园芽检测的基于文本引导扩散模型的域自适应数据增强

论文地址https://www.sciencedirect.com/science/article/pii/S0168169924012407

(6) DiffuYOLO: A novel method for small vehicle detection in remote sensing based on diffusion models——DiffuYOLO:一种基于扩散模型的遥感小型车辆检测新方法

论文地址https://www.sciencedirect.com/science/article/pii/S111001682401487X

(8) Data Augmentation for Object Detection via Controllable Diffusion Models——通过可控扩散模型进行对象检测的数据增强

论文地址https://ieeexplore.ieee.org/document/10484172
代码地址https://github.com/FANGAreNotGnu/ControlAug

(9) CamoDiffusion: Camouflaged Object Detection via Conditional Diffusion Models——CamoDiffusion:通过条件扩散模型进行伪装对象检测

论文地址https://ojs.aaai.org/index.php/AAAI/article/view/27890
代码地址https://github.com/Rapisurazurite/CamoDiffusion

(10) A Robust Diffusion Modeling Framework for Radar Camera 3D Object Detection——用于雷达相机 3D 目标检测的稳健扩散建模框架

论文地址https://ieeexplore.ieee.org/document/10484259

(11) 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features——3DiffTection:具有几何感知扩散特征的 3D 对象检测

论文地址https://arxiv.org/abs/2311.04391
代码地址https://research.nvidia.com/labs/toronto-ai/3difftection/

(12) DiffusionTrack: Diffusion Model for Multi-Object Tracking——DiffusionTrack:用于多对象跟踪的扩散模型

论文地址https://ojs.aaai.org/index.php/AAAI/article/view/28192
代码地址https://github.com/RainBowLuoCS/DiffusionTrack

(13) DiffYOLO: Object Detection for Anti-Noise via YOLO and Diffusion Models——DiffYOLO:通过 YOLO 和 Diffusion 模型进行抗噪声目标检测

论文地址https://arxiv.org/abs/2401.01659

(14) InstaGen: Enhancing Object Detection by Training on Synthetic Dataset——InstaGen:通过在合成数据集上进行训练来增强对象检测

论文地址https://arxiv.org/abs/2402.05937
代码地址https://fcjian.github.io/InstaGen/

(15) DiffusionTrack: Point Set Diffusion Model for Visual Object Tracking——DiffusionTrack:用于视觉对象跟踪的点集扩散模型

论文地址https://ieeexplore.ieee.org/document/10658605
代码地址https://github.com/VISION-SJTU/DiffusionTrack

(16) SDDGR: Stable Diffusion-based Deep Generative Replay for Class Incremental Object Detection——SDDGR:用于类增量目标检测的基于稳定扩散的深度生成重放

论文地址https://web3.arxiv.org/abs/2402.17323

(17) DiffBEV: Conditional Diffusion Model for Bird’s Eye View Perception——DiffBEV:鸟瞰感知的条件扩散模型

论文地址https://arxiv.org/abs/2303.08333
代码地址https://github.com/JiayuZou2020/DiffBEV/blob/main/README.md

(18) ConsistencyDet: A Few-step Denoising Framework for Object Detection Using the Consistency Model——ConsistencyDet:使用一致性模型进行对象检测的几步降噪框架

论文地址https://arxiv.org/abs/2404.07773
代码地址https://anonymous.4open.science/r/ConsistencyDet-37D5

(19) V2X-R: Cooperative LiDAR-4D Radar Fusion for 3D Object Detection with Denoising Diffusion——CVPR25,V2X-R:用于 3D 目标检测的协同 LiDAR-4D 雷达融合和去噪扩散

论文地址https://arxiv.org/abs/2411.08402
代码地址https://github.com/ylwhxht/V2X-R

(20) 6D-Diff: A Keypoint Diffusion Framework for 6D Object Pose Estimation——6D-Diff:用于 6D 对象姿态估计的关键点扩散框架

论文地址https://arxiv.org/abs/2401.00029

(21) CFMW: Cross-modality Fusion Mamba for Multispectral Object Detection under Adverse Weather Conditions——CFMW: 用于恶劣天气条件下多光谱目标检测的跨模态 Fusion Mamba

论文地址https://arxiv.org/abs/2404.16302
代码地址https://github.com/lhy-zjut/CFMW

(22) DiffusionDet: Diffusion Model for Object Detection——DiffusionDet:用于对象检测的扩散模型

论文地址https://arxiv.org/abs/2211.09788
代码地址https://github.com/ShoufaChen/DiffusionDet

(23) Diffusion-SS3D: Diffusion Model for Semi-supervised 3D Object Detection——Diffusion-SS3D: 用于半监督 3D 目标检测的扩散模型

论文地址https://ar5iv.labs.arxiv.org/html/2312.02966
代码地址https://github.com/luluho1208/Diffusion-SS3D

(24) DiffusionEngine: Diffusion Model is Scalable Data Engine for Object Detection——DiffusionEngine:Diffusion Model 是用于对象检测的可扩展数据引擎

论文地址https://arxiv.org/abs/2309.03893
代码地址https://github.com/bytedance/DiffusionEngine

(25) Diffusion Model for Camouflaged Object Detection——目标检测的扩散模型

论文地址https://arxiv.org/abs/2308.00303

(26) Stable Diffusion For Aerial Object Detection——用于航空目标检测的稳定扩散
论文地址https://arxiv.org/abs/2311.12345

(27) Diffusion-based 3D Object Detection with Random Boxes——使用随机框进行基于扩散的 3D 对象检测

论文地址https://arxiv.org/abs/2309.02049

(28) DiffRef3D: A Diffusion-based Proposal Refinement Framework for 3D Object Detection——DiffRef3D:用于 3D 对象检测的基于扩散的建议优化框架

论文地址https://arxiv.org/abs/2310.16349

(29) SVDM: Single-View Diffusion Model for Pseudo-Stereo 3D Object Detection——SVDM:用于伪立体 3D 对象检测的单视图扩散模型

论文地址https://arxiv.org/abs/2307.02270

(30) GeoDiffusion: Text-Prompted Geometric Control for Object Detection Data Generation——GeoDiffusion:用于对象检测数据生成的文本提示几何控制

论文地址https://arxiv.org/abs/2306.04607
代码地址https://github.com/KaiChen1998/GeoDiffusion/tree/main

(31) Deep Feature Deblurring Diffusion for Detecting Out-of-Distribution Objects——用于检测分布外对象的深度特征去模糊扩散

论文地址https://openaccess.thecvf.com/content/ICCV2023/papers/Wu_Deep_Feature_Deblurring_Diffusion_for_Detecting_Out-of-Distribution_Objects_ICCV_2023_paper.pdf
代码地址https://github.com/AmingWu/DFDD-OOD

42. 基于Mamba的目标检测

(1) Mamba YOLO: SSMs-Based YOLO For Object Detection——Mamba YOLO:基于 SSM 的 YOLO 用于对象检测,介绍了一种基于状态空间模型(State Space Models, SSMs)的YOLO目标检测模型,称为Mamba YOLO。这个模型结合了SSMs和YOLO的优势,旨在提高目标检测的性能和实时性。

论文地址https://arxiv.org/html/2406.05835v1
代码地址https://github.com/HZAI-ZJNU/Mamba-YOLO

(2) Voxel Mamba: Group-Free State Space Models for Point Cloud based 3D Object Detection——结合了Mamba(一种状态空间模型,SSM)与三维点云目标检测的方法。具体来说,这篇论文提出了一个名为Voxel Mamba的3D对象检测框架,它利用了Mamba模型的线性复杂度优势,采用了无需分组(group-free)的策略来序列化(serialize)整个体素空间到一个单一序列,以此来保持体素的空间邻近性

论文地址https://arxiv.org/abs/2406.10700
代码地址https://github.com/gwenzhang/voxel-mamba

(3) CFMW: Cross-modality Fusion Mamba for Multispectral Object Detection under Adverse Weather Conditions——CFMW: 用于恶劣天气条件下多光谱目标检测的跨模态 Fusion Mamba

论文地址https://arxiv.org/abs/2404.16302
代码地址https://github.com/lhy-zjut/cfmw

(4) PlainMamba: Improving Non-Hierarchical Mamba in Visual Recognition——PlainMamba:改进视觉识别中的非分层 Mamba

论文地址https://arxiv.org/abs/2403.17695
代码地址https://github.com/ChenhongyiYang/PlainMamba

(5) Fusion-Mamba for Cross-modality Object Detection——论文介绍了一种名为 Fusion-Mamba 的方法,它用于跨模态(cross-modality)目标检测。这种方法通过结合不同模态(如红外和可见光图像)的互补信息来提高目标检测的性能。Fusion-Mamba 方法的核心在于设计了一个名为 Fusion-Mamba Block (FMB) 的模块,该模块能够在隐状态空间中关联跨模态特征,以此减少不同模态特征之间的差异,并增强融合特征的表示一致性。​

论文地址https://arxiv.org/abs/2404.09146

(6) MonoMM: A Multi-scale Mamba-Enhanced Network for Real-time Monocular 3D Object Detection——一种用于实时单目3D目标检测的多尺度Mamba增强网络(MonoMM)。这项研究的核心在于通过结合深度信息和图像中的视觉特征来提升空间感知能力,这对于自动驾驶和增强现实等应用领域至关重要。

论文地址https://arxiv.org/abs/2408.00438

(7) DMM: Disparity-guided Multispectral Mamba for Oriented Object Detection in Remote Sensing——一种用于遥感领域中定向目标检测的多光谱Mamba框架(DMM)。这个框架包括一个基于Mamba的跨模态特征融合模块(DCFM),一个多尺度目标感知注意力模块(MTA),以及一个目标先验感知辅助任务(TPA)。

论文地址https://arxiv.org/abs/2407.08132

(8) MambaTrack: A Simple Baseline for Multiple Object Tracking with State Space Model——MambaTrack:使用状态空间模型进行多对象跟踪的简单基线

论文地址https://arxiv.org/abs/2408.09178

43. 大模型时代的目标检测

SAM+目标检测

(1) Crowd-SAM: SAM as a Smart Annotator for Object Detection in Crowded Scenes——Crowd-SAM框架通过结合Efficient Prompt Sampler和Part-Whole Discrimination Network,在拥挤场景中的目标检测任务上取得了显著的性能提升。它不仅在CrowdHuman数据集上达到了与全监督方法相媲美的78.4% AP,而且在few-shot学习设置中显著超越了现有的few-shot对象检测器,比De-FRCN高出32%的AP,展现了SAM在目标检测领域的潜力和数据效率。

论文地址https://arxiv.org/abs/2407.11464
代码地址https://github.com/FelixCaae/CrowdSAM

(2) SAM-Adapter: Adapting Segment Anything in Underperformed Scenes——这篇文章研究了如何将Segment Anything Model(SAM)应用于目标检测,特别是在一些表现不佳的场景中,如隐蔽对象检测和阴影检测。文章提出了一种名为SAM-Adapter的方法,通过引入领域特定的信息或视觉提示来增强SAM在这些特定任务中的性能,而不是对SAM进行微调。

论文地址https://ieeexplore.ieee.org/document/10350709
代码地址https://github.com/tianrun-chen/SAM-Adapter-PyTorch

(3) Endow SAM with Keen Eyes: Temporal-Spatial Prompt Learning for Video Camouflaged Object Detection——研究了如何将Segment Anything Model(SAM)应用于视频隐蔽目标检测(Video Camouflaged Object Detection, VCOD)任务。文章提出了一种名为TSP-SAM(Temporal-spatial Prompt SAM)的新方法,旨在通过时间空间提示学习来提高SAM在视频隐蔽目标检测中的性能。​

论文地址https://ieeexplore.ieee.org/document/10657541

(4) SAM-PM: Enhancing Video Camouflaged Object Detection using Spatio-Temporal Attention——如何改进使用Segment Anything Model(SAM)进行目标检测,特别是在视频中的伪装物体检测(VCOD)任务。文章提出了一种新的方法,称为SAM传播模块(SAM-PM),旨在通过引入时空交叉注意机制来增强SAM在视频伪装物体检测中的表现。研究表明,SAM在处理伪装物体时面临一些挑战,而SAM-PM通过保持SAM网络权重不变并专注于训练传播模块,成功地提高了检测性能。在MoCA-Mask数据集上,与之前的最佳模型SLT-Net相比,SAM-PM在Fw β指标上分别取得了82.31%提升!

论文地址https://arxiv.org/abs/2406.05802
代码地址https://github.com/SpiderNitt/SAM-PM

(5) RoboFusion: Towards Robust Multi-Modal 3D Object Detection via SAM——论文展示了RoboFusion框架在多模态3D目标检测中的有效性,特别是在应对噪声和复杂环境时的鲁棒性。通过结合SAM及其变体,RoboFusion在KITTI和nuScenes数据集上实现了显著的性能提升,尤其是在恶劣天气条件下,展示了其在自动驾驶应用中的潜力和适应性。这一研究为未来的视觉基础模型在3D目标检测领域的应用提供了新的思路和方向。

论文地址https://arxiv.org/abs/2401.03907
代码地址https://github.com/adept-thu/RoboFusion

(6) SAM3D: Zero-Shot 3D Object Detection via Segment Anything Model——SAM3D是一种利用Segment Anything Model(SAM)进行3D目标检测的方法。它通过将LiDAR点云转换为鸟瞰图(BEV)的2D图像表示,然后利用SAM在BEV图像上进行分割,最终基于分割结果预测3D边界框

论文地址https://arxiv.org/abs/2306.02245
代码地址https://github.com/DYZhang09/SAM3D

(7) Training-Free Open-Ended Object Detection and Segmentation via Attention as Prompts——这篇论文研究的是如何将SAM(Segment-Anything Model)用于开放性目标检测和分割任务。论文提出了一个名为VL-SAM的框架,它结合了视觉-语言模型(VLM)和SAM,以实现无需额外训练的开放性目标检测和分割。VL-SAM利用VLM生成的注意力图作为提示,引导SAM进行目标分割。这种方法可以在没有预先定义的目标类别输入的情况下,发现并分割训练集中未见过的目标对象。​

论文地址https://arxiv.org/abs/2410.05963

(8) IRSAM: Advancing Segment Anything Model for Infrared Small Target Detection——ECCV24,IRSAM模型通过创新的PMD模块和GAD,在红外小目标检测任务中取得了显著的性能提升。它不仅在客观指标上超越了现有的最先进方法,而且在主观评价上也显示出更好的目标分割效果。IRSAM的成功展示了通过特定设计的模块来改进通用视觉分割模型,以适应特定领域任务的潜力。

论文地址https://arxiv.org/abs/2407.07520
代码地址https://github.com/IPIC-Lab/IRSAM

(9) Adaptive Low Rank Adaptation of Segment Anything to Salient Object Detection——论文提出了一种名为Segment Salient Object Model(SSOM)的新方法,通过自适应低秩适应(AdaLoRA)策略对SAM进行微调,以提高其在显著目标检测任务中的性能。尽管SAM在一般对象分割方面表现出色,但在显著目标检测方面的能力较弱,因此该研究旨在通过适应性微调来解决这一问题。研究结果表明,SSOM在多个基准数据集上的表现优于现有的最先进方法。​

论文地址https://arxiv.org/abs/2308.05426
代码地址https://github.com/CuiRuikai/SAM-SOD

(10) Exploring Deeper! Segment Anything Model with Depth Perception for Camouflaged Object Detection——论文提出了一种新的模型,称为具有深度感知的Segment Anything Model(DSAM),旨在通过结合RGB和深度信息来提高在伪装目标检测中的分割精度。该研究探讨了如何利用深度特征来补偿SAM在处理伪装目标时的不足,从而提升其在这一特定领域的表现。

论文地址https://arxiv.org/abs/2407.12339
代码地址https://github.com/guobaoxiao/DSAM

其他

(11) General Object Foundation Model for Images and Videos at Scale——用于大规模图像和视频的通用对象基础模型

论文地址https://arxiv.org/abs/2312.09158
代码地址https://github.com/FoundationVision/GLEE

(12) Griffon: Spelling out All Object Locations at Any Granularity with Large Language Models——Griffon:使用大型语言模型以任何粒度拼写出所有对象位置

论文地址https://arxiv.org/abs/2311.14552
代码地址https://github.com/jefferyZhan/Griffon

(13) DINO-X: A Unified Vision Model for Open-World Object Detection and Understanding——DINO-X:用于开放世界对象检测和理解的统一视觉模型

论文地址https://arxiv.org/html/2411.14347v3
代码地址https://github.com/IDEA-Research/DINO-X-API

(14) Contextual Object Detection with Multimodal Large Language Models——使用多模态大型语言模型进行上下文对象检测

论文地址https://arxiv.org/abs/2305.18279
代码地址https://mmlab-ntu.github.io/project/contextdet/index.html

(15) Lenna: Language Enhanced Reasoning Detection Assistant——Lenna:语言增强推理检测助手

论文地址https://arxiv.org/abs/2312.02433
代码地址https://github.com/Meituan-AutoML/Lenna

模块化即插即用架构是AI系统从“封闭黑箱”走向“开放生态”的关键一步。它不仅提升了模型的灵活性与可维护性,也为AI研究提供了更强的实验自由度与工程落地能力。随着模块接口标准化与开源生态的发展,这一方向有望成为下一代AI系统设计的核心范式。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Stara-AI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值