图像融合论文阅读：YDTR: Infrared and Visible Image Fusion via Y-Shape Dynamic Transformer

最新推荐文章于 2025-02-26 11:07:27 发布

图像强

最新推荐文章于 2025-02-26 11:07:27 发布

阅读量2.5k

点赞数 26

分类专栏：图像融合文章标签：论文阅读图像处理深度学习人工智能图像融合

本文链接：https://blog.csdn.net/jiexiang5396/article/details/135471906

版权

图像融合专栏收录该内容

40 篇文章

订阅专栏

该篇文章介绍了一种新颖的图像融合方法YDTR，利用Y形动态Transformer模块(DTRM)结合卷积神经网络(CNN)和Transformer，增强红外与可见光图像的特征提取，以提高全局上下文信息的关联。文章还探讨了结构相似性和空间频率的损失函数设计，以及实验结果对比基线方法的表现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

@article{tang2022ydtr,
title={YDTR: Infrared and visible image fusion via Y-shape dynamic transformer},
author={Tang, Wei and He, Fazhi and Liu, Yu},
journal={IEEE Transactions on Multimedia},
year={2022},
publisher={IEEE}
}

论文级别：SCI A2

影响因子：7.3

📖[论文下载地址]

📖论文解读

现有的基于深度学习的方法通常通过卷积运算从源图像中提取互补信息，这导致全局特征保留有限。
为了解决这个问题，作者提出了一种Y形动态transformer（YDTR）
动态transformer模块（DTRM）不仅用来获取局部特征，还可以获取上下文信息。
Y形网络可以更好的保留细节。
此外作者还设计了由结构相似性SSIM和空间频率SF组成的损失函数。

🔑关键词

Dynamic transformer, image fusion, infrared image, Y-shape network
动态transformer，图像融合，红外图像， Y形网络

💭核心思想

CNN+Transformer+AE+Y形网络
使用Y形网络的两条分支分别提取红外及可见光图像的纹理细节，然后在主干充分合并。
DTRM可以充分挖掘局部和全局信息。

扩展学习
[什么是图像融合？（一看就通，通俗易懂）]

🪅相关背景知识

本文的背景知识涉及：

深度学习
神经网络
图像融合
自编码器
transformer

下图为作者总结的一些方法的特点
在这里插入图片描述
我觉得这个Y形结构优点牵强，
打个比方，(DIF-Net)Unsupervised Deep Image Fusion With Structure Tensor Representations就是典型的Y形结构

IFCNN也算是Y形结构的变体。

在这里插入图片描述

其实就是两个分支分别处理不同模态的图像，然后汇总。所以这个”Y形结构创新“仁者见仁智者见智。

🪢网络结构

作者提出的网络结构如下所示。

这是我目前见过最长的网络结构图了，足足占了一页的80%左右。
让我们看看作者究竟提出了什么想法。
其实这个网络结构很简单那，就是双分支双编码器单解码器的网络结构，在编码器后面和解码器前面加入了作者设计的DTRM，也就是动态transformer模块用来提升全局上下文信息的关联。
在这里插入图片描述
从上图我们可以看到，Y形结构每条分支均包含一个编码器和一个DTRM
在分支中，编码器用于提取浅层特征，STRM用于对远程互补信息进行捕获。
主干由一个用于特征集成的DTRM和一个用于降维的解码器组成。
在DTRM中，由一个CDFB和两个TRB组成。说白了就是一个滤波+两个Transformer块。