(用于多模态图像融合的相关驱动双分支特征分解)
这篇文章发表在CVPR 2023上,作者为赵子祥博士。
首先,这篇论文干了个什么事情?多模态图像的融合。
论文的贡献有以下四点(简要来说):
第一,双分支Transformer-CNN框架。
第二,更好适应MMIF任务。
第三,相关驱动的分解损失函数。
第四,图像融合性能、统一的测量基准。
上图中作者展示了其他用于融合的网络框架的结构图和论文提出的方法的框架图,(I)、(II)和(III)类型的网络框架都分别存在着缺陷(长话短说,别人存在的问题):
1.CNN内部工作机制难以解释。
2.CNN只能在相对较小的感受野中提取信息。
3.网络在前向传播中丢失高频信息。
模型
既然别人的模型存在问题,那么来看作者怎么做的。作者分为了两个阶段来训练自己的模型。
先来看看里面的东西都是什么:
左边的I和V分别是第一阶段的输入,即红外和可见光的两张图像,其中红外图像为单通道,可见光图像为三通道。绿色为两个图像共有的SFE共享特征编码器、蓝色为DCE详细CNN特征编码器、橙色为BTE基础Transformer编码器,蓝色和橙色都是单独属于红外和可见光图像各自的私有编码器。解码器的结构类似于共享特征编码器的内部结构。编码器阶段的输出就是图上的四个彩色块。圆圈C代表通道级联的操作,这个操作理解起来就像把像两摞扑克牌一样的特征图给叠加在一起变成一摞特征。
在这里有个小问题,就是图中的loss和原论文中的loss是不一样的。我们以论文中的loss为准,因为在论文的后面部分中有写消融实验中说把除法换成减法,因此我们大胆断定,论文中的loss是准的。
再来看看里面的东西都干了什么:
输入:成对的红外和可见光图像。
第一阶段的输出:模型重建后的红外和可见光图像。
首先,输入的红外和可见光图像通过SFE[共享特征编码器(图中绿色的块)],SFE模块的输出结果作者用 来表示。
其次,它们的结果再进入各自的私有编码器,得到四个特征层。。先不看图中的CC,CC其实是一个相关系数。
接下来,对红外和可见光图像各自的特征层进行通道级联,送入解码器,得到重建后的红外和可见光的图像。
这样设计网络,作者想要得到什么?
作者想要得到总共的编码器和解码器。因为光得到编码器和解码器不行,现在离目标的融合还差融合的模块。
作者是怎么设计让这个网络朝着我们想要它发展的方向去学习的?
是通过设计损失函数来进行约束的。
第一阶段的损失函数为上式。
其中,等式右侧左起第一项代表红外图像的重建损失,因为第一阶段的模型可以看作是先分解再合成的过程,那么在分解和合成的过程中必然带来着信息丢失,第二项代表可见光图像的重建损失,第三项代表着相关性的损失。(我离岸船认为,这是这篇文章核心的一个巧妙之处)希腊字母为调和参数。
下图的定义可以看出和最开始最上面的图中的损失函数的表达式不一样,但是要以下面的为准,因为论文中就是下面的样子。
上图中,CC终于出现了,它代表着特征的相关系数。
简单理解:这个系数越接近于0,那么两者的特征就越相似,反之,则两者的特征越不相似。这个系数的值域为[-1,1]。
损失函数中,作者算了输出和输入的二范数的平方和结构性相似指数SSIM,并用加权的方式设为输出和输入的损失。
为什么要这样设计相关性的损失函数?
因为平方可以保证分子始终为非负数,对分母增加了一个,=1.01,这样可以保证分母恒为正数,最终这个相关性的损失函数恒为非负数。
作者提出了一个继续进行工作的假设:
对于多模态图像的融合,作者假设两个模态的输入的特征在低频上是相关的,表示了两个模态之间的共有信息;作者还假设,两个模态的输入特征在高频上是不相关的,表示了两个模态的分别独有的信息。
相关性损失函数这样设计,能够保证在损失函数越来越小的情况下,分子或者和分母分别变小和变大,分子变小的过程说明红外和可见光的高频信息相关性越来越低;分母越来越大说明红外和可见光的低频信息越来越相似。