CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for Multi-Modality Image Fusion(训练I)

最新推荐文章于 2024-05-08 21:41:50 发布

离岸船

最新推荐文章于 2024-05-08 21:41:50 发布

阅读量2k

点赞数 3

文章标签：深度学习人工智能计算机视觉

原文链接：https://arxiv.org/abs/2211.14461

版权

（用于多模态图像融合的相关驱动双分支特征分解）

这篇文章发表在CVPR 2023上，作者为赵子祥博士。

首先，这篇论文干了个什么事情？多模态图像的融合。

论文的贡献有以下四点（简要来说）：

第一，双分支Transformer-CNN框架。

第二，更好适应MMIF任务。

第三，相关驱动的分解损失函数。

第四，图像融合性能、统一的测量基准。

上图中作者展示了其他用于融合的网络框架的结构图和论文提出的方法的框架图，(I)、(II)和(III)类型的网络框架都分别存在着缺陷（长话短说，别人存在的问题）：

1.CNN内部工作机制难以解释。

2.CNN只能在相对较小的感受野中提取信息。

3.网络在前向传播中丢失高频信息。

模型

既然别人的模型存在问题，那么来看作者怎么做的。作者分为了两个阶段来训练自己的模型。

先来看看里面的东西都是什么：

左边的I和V分别是第一阶段的输入，即红外和可见光的两张图像，其中红外图像为单通道，可见光图像为三通道。绿色为两个图像共有的SFE共享特征编码器、蓝色为DCE详细CNN特征编码器、橙色为BTE基础Transformer编码器，蓝色和橙色都是单独属于红外和可见光图像各自的私有编码器。解码器的结构类似于共享特征编码器的内部结构。编码器阶段的输出就是图上的四个彩色块。圆圈C代表通道级联的操作，这个操作理解起来就像把像两摞扑克牌一样的特征图给叠加在一起变成一摞特征。

在这里有个小问题，就是图中的loss和原论文中的loss是不一样的。我们以论文中的loss为准，因为在论文的后面部分中有写消融实验中说把除法换成减法，因此我们大胆断定，论文中的loss是准的。

再来看看里面的东西都干了什么：

输入：成对的红外和可见光图像。

第一阶段的输出：模型重建后的红外和可见光图像。

首先，输入的红外和可见光图像通过SFE[共享特征编码器(图中绿色的块)]，SFE模块的输出结果作者用 $\Phi ^{_{I}^{S}}=S(I),\Phi ^{_{V}^{S}}=S(V)$ 来表示。

其次，它们的结果再进入各自的私有编码器，得到四个特征层。 $\Phi _{I}^{B},\Phi _{I}^{D},\Phi _{V}^{D},\Phi _{V}^{B}$ 。先不看图中的CC，CC其实是一个相关系数。

接下来，对红外和可见光图像各自的特征层进行通道级联，送入解码器，得到重建后的红外和可见光的图像。

这样设计网络，作者想要得到什么？

作者想要得到总共的编码器和解码器。因为光得到编码器和解码器不行，现在离目标的融合还差融合的模块。

作者是怎么设计让这个网络朝着我们想要它发展的方向去学习的？

是通过设计损失函数来进行约束的。

第一阶段的损失函数为上式。

其中，等式右侧左起第一项代表红外图像的重建损失，因为第一阶段的模型可以看作是先分解再合成的过程，那么在分解和合成的过程中必然带来着信息丢失，第二项代表可见光图像的重建损失，第三项代表着相关性的损失。（我离岸船认为，这是这篇文章核心的一个巧妙之处）希腊字母为调和参数。

下图的定义可以看出和最开始最上面的图中的损失函数的表达式不一样，但是要以下面的为准，因为论文中就是下面的样子。

上图中，CC终于出现了，它代表着特征的相关系数。

简单理解：这个系数越接近于0，那么两者的特征就越相似，反之，则两者的特征越不相似。这个系数的值域为[-1，1]。

损失函数中，作者算了输出和输入的二范数的平方和结构性相似指数SSIM，并用加权的方式设为输出和输入的损失。

为什么要这样设计相关性的损失函数？

因为平方可以保证分子始终为非负数，对分母增加了一个 $\epsilon$ ， $\epsilon$ =1.01，这样可以保证分母恒为正数，最终这个相关性的损失函数恒为非负数。

作者提出了一个继续进行工作的假设：

对于多模态图像的融合，作者假设两个模态的输入的特征在低频上是相关的，表示了两个模态之间的共有信息；作者还假设，两个模态的输入特征在高频上是不相关的，表示了两个模态的分别独有的信息。

相关性损失函数这样设计，能够保证在损失函数越来越小的情况下，分子或者和分母分别变小和变大，分子变小的过程说明红外和可见光的高频信息相关性越来越低；分母越来越大说明红外和可见光的低频信息越来越相似。

关注

3
点赞
踩
17

收藏

觉得还不错? 一键收藏
8
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

离岸船 CSDN认证博客专家 CSDN认证企业博客

码龄4年

0: 原创

167万+: 周排名

67万+: 总排名

2060: 访问

: 等级

11: 积分

1: 粉丝

3: 获赞

8: 评论

18: 收藏

私信

关注

热门文章

CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for Multi-Modality Image Fusion(训练I) 2060

最新评论

CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for Multi-Modality Image Fusion(训练I)
离岸船: 抱歉，我当时看这篇论文的时候作者没有公开代码，我就是全按照文章写的我的看法，如果您有可以讨论的看法，或许我们可以讨论讨论
CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for Multi-Modality Image Fusion(训练I)
ventinal: 我看了下代码，一阶段的损失函数是加了一个可见光的一阶导数的损失，论文中没有写这个损失是什么原因呢
CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for Multi-Modality Image Fusion(训练I)
离岸船: 确实只用的Tran来做的，CNN那个保障局部的，两个全局的最后合起来算的系数（有可能只是我理解的是这样的，更具体的可以直接去知乎找赵博士）
CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for Multi-Modality Image Fusion(训练I)
yuli678: 好的，谢谢，他提取低频信息的时候，低频不是代表全局信息吗，为什么要用Lite transformer这个全局和局部分支相连的模块呢，直接用只提取全局的模块不是更好吗
CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for Multi-Modality Image Fusion(训练I)
离岸船: 低频和高频分别代表着不同的信息，在模型训练的时候得到的低频和高频并没有完全分离出不同的信息，作者在损失函数的约束中设计让他们产生区别，利用约束取告诉网络高低频的信息就是应该差异很大，让网络自己去学习我们想要的信息。

大家在看

最新文章

目录

评论 8

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。