图像融合、Transformer、扩散模型

        在这篇博客中,主要是收集到一些图像融合框架中引入Transformer结构的文章,提供给大家参考学习,目前图像融合领域引入Transformer结构的文章比较少(我所看到的比较少,也看可能我看的比较少?),主要作用就是把它作为一种提取特征的方式,或者说更倾向于long-range dependencies的建立。Transformer引入到图像融合领域的时间并不长,大部分文章都是2020-2022发出的,所有并没有统计发表年份。至于是具体是哪个会议或者期刊发表的并没有标注,有兴趣可以自己去查查。

       Transformer 主要是通过自注意力学习图像斑块之间的全局空间关系。 自注意力机制致力于建立long-range dependencies,从而在浅层和深层中更好地利用全局信息,所以 Transformer 的使用就是解决长序列问题的一个好方法。在 CV 领域中常用的就是 CNN,它可以提取本地的特征,因为每次卷积就是提取该卷积下的特征图,在局部信息的提取上有很大优势,但无法关注图像的长期依赖关系,阻碍了复杂场景融合的上下文信息提取。所以, Transformer 的引入主要解决这个问题。

        下面这个思维导图从单任务和多任务的角度进行设计的,简单看看吧!!!

 下面这个表格是论文的名称,以及在网络结构上进行了总结。

CNN+Transformer结构
文章类型代码
Image Fusion TransformerVIF文中提供了代码链接
MFST: Multi-Modal Feature Self-Adaptive Transformer for Infrared and Visible Image FusionVIF
DNDT: Infrared and Visible Image Fusion Via DenseNet and Dual-TransformerVIF
TransMEF: A Transformer-Based Multi-Exposure Image Fusion Framework using Self-Supervised Multi-Task LearningMEF

文中提供了代码链接

TransFuse: A Unified Transformer-based Image Fusion Framework using Self-supervised Learning

Unified Framework

文中提供了代码链接
TGFuse: An Infrared and Visible Image Fusion Approach Based on Transformer and Generative Adversarial NetworkVIF
SwinFusion: Cross-domain Long-range Learning for General Image Fusion via Swin TransformerUnified Framework文中提供了代码链接
CGTF: Convolution-Guided Transformer for Infrared and Visible Image FusionVIF
Pure Transformer结构(这两篇都是预训练模型做的)
SwinFuse: A Residual Swin Transformer Fusion Network for Infrared and Visible ImagesVIF文中提供了代码链接
PPT Fusion: Pyramid Patch Transformer for a Case Study in Image FusionUnified Framework
新增
THFuse: An infrared and visible image fusion network using transformer and hybrid feature extractorVIF
IFormerFusion: Cross-Domain Frequency Information Learning for Infrared and Visible Image Fusion Based on the Inception TransformerVIF
Breaking Free from Fusion Rule: A Fully Semantic-driven Infrared and Visible Image FusionVIF
扩散模型
Dif-Fusion: Towards High Color Fidelity in Infrared and Visible Image Fusion with Diffusion ModelsVIF,扩散彩色通道特征
2023.11.28新增顶会、顶刊
CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for Multi-Modality Image Fusion+TransformerCVPR23
MetaFusion: Infrared and Visible lmage Fusion via Meta-Feature Embedding
from Object Detection
+目标检测CVPR23
Deep Convolutional Sparse Coding Networks for Interpretable Image FusionUnified FrameworkCVPR
Multi-interactive Feature Learning and a Full-time Multi-modality Benchmark for Image Fusion and Segmentation+语义分割ICCV23
DDFM: Denoising Diffusion Model for Multi-Modality Image Fusion+GAN+扩散模型ICCV23
Bi-level Dynamic Learning for Jointly Multi-modality Image Fusion and Beyond+语义分割IJCAI23
LRRNet: A Novel Representation Learning Guided Fusion Network for Infrared and Visible ImagesVIFTPAMI23
CoCoNet: Coupled Contrastive Learning Network with Multi-level Feature Ensemble for Multi-modality Image Fusion+耦合对比IJCV23
An Interactively Reinforced Paradigm for Joint Infrared-Visible Image Fusion and Saliency Object Detection+显著性目标检测InF23

       

        上述论文的实验部分都是比较的卷积方法或者传统方法,并没有比较到使用到Transforme的模型,所以他们之间的是啥情况,那就不清楚了,没刻意去比较过,有兴趣可以去比较比较。That thing is not sure!!!

        思考:怎么把Tranformer合理的引入到CNN结构中进行图像融合以及如何真正地将Transformer用到图像融合融合中(完全使用Transformer去构建图像融合模型) ??? 

        目前,只收集到这些文章。。如有错误,希望大家看到后及时在评论区留言!!!

2023.3.17新增、扩散模型!!!

2023/11/28   结合相关任务相关成主流了???

新增!!!顶会、顶刊相关论文!!!

  • 7
    点赞
  • 43
    收藏
    觉得还不错? 一键收藏
  • 7
    评论
图像融合transformer是一种利用transformer结构来实现图像融合的方法。在图像融合任务中,transformer可以利用其对长距离依赖的建模能力,同时处理局部信息和全局信息,以提高融合效果。与传统的基于卷积的方法相比,图像融合transformer更加注重局部关系的卷积,具有更大的潜力。同时,如何有效地进行多光谱图像(MSI)和高光谱图像(HSI)之间的交互融合一直是图像融合任务的难点。因此,在图像融合transformer中,研究者们提出了一种名为MCT的方法,基于transformer解决方案实现了HSI和MSI之间的交叉关注操作,提供了更高的性能改进。这种方法通过将图像融合问题转化为特征提取、图像重建和特征融合等模块的组合,实现了图像融合transformer的整体结构。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* [【多层交叉transformer:高光谱和多光谱图像融合】](https://blog.csdn.net/weixin_43690932/article/details/129325994)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *3* [CVPR2023 | 结合CNN和Transformer的多任务多模态图像融合方法](https://blog.csdn.net/qq_42722197/article/details/131079017)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值