想要高效涨点,实现模型性能和效率双飙升?强烈推荐关注这个好出创新点的方法:卷积+注意力机制!
卷积擅长从原始数据中提取局部特征,能够捕捉到图像或文本中的细节信息。而注意力机制,则能对这些特征进行加权处理,突出任务相关的重要特征。当两者结合,便能优势互补!
因此,这种结合在深度学习领域热度很高,在图像分割、图像分类、目标检测领域,都效果显著。像是CVPR24上的EMCAD,便在医学图像任务中,性能远超SOTA的同时,FLOPs直降80.3%;AAAI24的SCTNet也在语义分割任务中,速度狂飙200%……
为让大家能够紧跟领域前沿,找到更多idea启发,我给大家准备了18种创新思路和源码。主要涉及卷积+自注意力、多尺度卷积+注意力、可变形卷积+注意力等大热门!
论文原文+开源代码需要的同学看文末
Hybrid Convolutional and Attention Network for Hyperspectral Image Denoising
内容:这篇论文提出了一种混合卷积和注意力网络,用于高光谱图像去噪。该网络结合了卷积神经网络和Transformer的优势,通过设计卷积和注意力融合模块来捕获长距离依赖和邻域光谱相关性,以及多尺度前馈网络(MSFN)来增强多尺度信息聚合,从而提高去噪性能。实验结果表明,HCANet在去除各种复杂噪声方面表现出色,并且在主流高光谱图像数据集上的有效性得到了验证。
EMCAD:Efficient Multi-scale Convolutional Attention Decoding for Medical Image Segmentation
内容:论文介绍了一种名为EMCAD的新型高效多尺度卷积注意力解码器,用于医学图像分割。EMCAD通过利用独特的多尺度深度卷积块和通道、空间以及分组(大核)门控注意力机制,优化了特征图并捕获了复杂的空间关系,同时在保持计算效率的同时实现了与标准编码器配合使用时仅需要1.91M参数和0.381G FLOPs的高效性能。实验结果表明,EMCAD在12个数据集上的六项不同的医学图像分割任务中实现了最先进的性能,同时显著减少了参数数量和计算量。
MIST: Medical Image Segmentation Transformer with Convolutional Attention Mixing (CAM) Decoder
内容:论文介绍了一种名为MIST的新型医学图像分割模型,该模型结合了一个预训练的多轴视觉变换器(MaxViT)作为编码器和一个新颖的卷积注意力混合(CAM)解码器。MIST通过在CAM解码器中集成多头自注意力、空间注意力和挤压激励注意力模块来捕获像素间的长距离依赖关系,并使用深度和浅层卷积来增强特征提取和感受野扩展,从而有效地捕获局部和全局上下文信息。实验结果表明,MIST在ACDC和Synapse数据集上的性能超过了专门设计用于医学图像分割的最新模型。
DehazeDCT: Towards Effective Non-Homogeneous Dehazing via Deformable Convolutional Transformer
内容:论文提出了一种名为DehazeDCT的新型去雾方法,该方法基于可变形卷积架构,通过结合可变形卷积v4和轻量级Retinex启发式,有效地处理非均匀去雾问题,并在NTIRE 2024 Dense and Non-Homogeneous Dehazing Challenge中取得了第二名的优异成绩。
SERNet-Former: Semantic Segmentation by Efficient Residual Network with Attention-Boosting Gates and Attention-Fusion Networks
内容:研究提出了一种名为SERNet-Former的新型编码器-解码器架构,通过引入高效的残差网络和注意力融合网络,旨在提高语义分割任务中的效率和性能。该网络在CamVid和Cityscapes数据集上表现出色,达到了84.62%和87.35%的平均交并比(mean IoU)结果,显著提升了对小尺寸物体和特征的识别能力。
码字不易,欢迎大家点赞评论收藏!
关注下方《AI科研技术派》
回复【18CA】获取完整论文
👇