结合创新！transformer+特征融合新突破

最新推荐文章于 2025-03-31 20:57:50 发布

大靠山

最新推荐文章于 2025-03-31 20:57:50 发布

阅读量4.5k

点赞数 25

文章标签： transformer 深度学习人工智能 prompt 边缘计算大数据音视频

本文链接：https://blog.csdn.net/m0_59235245/article/details/144093734

版权

2024深度学习发论文&模型涨点之——Transformer+特征融合

Transformer和特征融合的结合是一种在计算机视觉领域中非常活跃的研究领域，它旨在通过结合Transformer的自注意力机制和特征融合技术来提高模型的性能、降低计算成本以及提升模型泛化能力。

论文精选

论文1：

HiFuse: Hierarchical multi-scale feature fusion network for medical image classification

HiFuse：用于医学图像分类的层次化多尺度特征融合网络

方法

三分支层次多尺度特征融合网络结构：结合了Transformer和CNN的优势，从多尺度层次中融合特征，以提高各种医学图像的分类准确性。
局部和全局特征块的并行层次：设计用于在不同语义尺度上高效提取局部特征和全局表示。
适应性层次特征融合块（HFF块）：包含空间注意力、通道注意力、残差逆MLP和快捷连接，以自适应地融合不同层次尺度特征的语义信息。

创新点

性能提升：在ISIC2018数据集上的准确率比基线提高了7.6%，在Covid-19数据集上提高了21.5%，在Kvasir数据集上提高了10.4%。
适应性层次特征融合（HFF块）：通过空间注意力和通道注意力自适应地融合不同尺度特征的语义信息，提高了模型的表示能力。
线性计算复杂度：HiFuse模型具有线性计算复杂度，与图像大小相关，这使得模型在处理大型医学图像时更加高效。

论文2：

CAFF-DINO: Multi-spectral object detection transformers with cross-attention features fusion

CAFF-DINO：多光谱目标检测变换器与交叉注意力特征融合

方法

多光谱目标检测架构：基于交叉注意力特征融合（CAFF）和基于变换器的检测器（DINO）。
交叉注意力机制：利用交叉注意力机制执行不同光谱之间的特征融合。
特征融合方法（CAFF）：在每个抽象层次上提取新的融合特征图，然后注入到基于变换器的检测器的编码器-解码器中。
层次化交叉注意力操作：在特征图上执行多尺度的交叉注意力操作，以强调在不同尺度上提取特征。

创新点

多光谱目标检测性能提升：在红外-可见光多光谱数据集上，与最先进的方法相比，提出的方法在目标检测性能上取得了显著提升，例如在LLVIP数据集上mAP提高了4.9%，在FLIR-aligned数据集上mAP提高了9.1%。
交叉注意力特征融合（CAFF）：该方法能够强制输入模态之间的有意义关联和相关性提取，与自注意力操作相比，交叉注意力直接关注两种模态之间的关联信息提取。
系统性错位的鲁棒性：研究了CAFF-DINO对图像对之间系统性错位的鲁棒性，发现在不同错位情况下，CAFF-DINO的mAP下降通常小于对比方法，显示出更好的鲁棒性。
模型的通用性：提出的模型是通用的，能够快速实现在大多数单模态基于变换器的检测器上，这增加了模型的适用性和灵活性。

论文3：

Anticipative Feature Fusion Transformer for Multi-Modal Action Anticipation

Anticipative Feature Fusion Transformer 用于多模态动作预测

方法

基于Transformer的模态融合技术：在早期阶段统一多模态数据。
Anticipative Feature Fusion Transformer (AFFT)：结合多模态特征，并利用融合后的特征预测下一个动作。
特征提取器：使用预训练的特征提取器，如OMNIVORE，与中层特征融合相结合。

创新点

Anticipative Feature Fusion Transformer (AFFT)：在中层融合提取的特征上执行，显著优于基于分数融合的方法，并在EpicKitchens-100动作预测和EGTEA Gaze+上提供最先进的结果。
特征融合策略：与晚期和分数融合方法不同，AFFT首先融合特征，然后使用融合后的特征来预测下一个动作。
性能提升：在EpicKitchens-100上，AFFT-Swin+模型在验证集上超过了当前最先进的模型MeMViT 0.8%的mean top-5 ratio动作预测性能，无需微调骨干网络。在EGTEA Gaze+上，AFFT-TSN模型在固定特征上超过了先前的工作，尤其是在类均值top-1上。

论文4：

Hybrid CNN-Transformer Feature Fusion for Single Image Deraining

用于单图像去雨的混合CNN-Transformer特征融合

方法

混合CNN-Transformer特征融合网络（HCT-FFN）：以阶段性递进的方式，结合CNN和Transformer的个体学习优势，以帮助图像恢复。
退化感知混合专家（DaMoE）模块：在CNN基础阶段堆叠，使模型能够强调空间变化的雨分布特征。
背景感知视觉Transformer（BaViT）模块：在Transformer基础阶段使用，以补充图像的长距离依赖特征，实现全局纹理恢复。
交互式融合分支（IFB）：在相邻阶段引入，以进一步促进高质量去雨结果的重建。

创新点

性能参数权衡：在Rain100L数据集上，与其它方法相比，HCT-FFN不仅重建了高质量的输出，而且实现了最佳的性能-参数权衡。
阶段递进学习：通过分阶段的方式逐步去除雨迹，最终阶段实现了优异的去雨质量。
特征融合策略：通过交互式融合分支（IFB）结合CNN和Transformer特征，提供了额外的互补信息，使模型能够自适应地学习更有用的表示。
扩展性：HCT-FFN的方法可以扩展到图像去雾任务，并在SateHaze1k数据集上取得了优异的性能。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述