基于CNN和transformer,空间和通道注意力。
对比了两个基于transformer的方法,SwinFusion(通用融合框架)和一个2022年还没中稿的arxiv的一片PPTFusion。
代码公开,实验丰富。
根据主观图结合作者的分析,尝试思考其他方法的缺陷是什么原因?
1、Motivation
现有深度融合模型的关键部分是卷积运算,卷积运算擅长捕捉局部特征,但不能表示源图像的长期依赖关系,导致一些重要的全局上下文信息提取不足。
互补信息利用是影响融合性能的关键因素,信息丢失是灾难性的
设计一个end-to-end,想利用transformer的长距离建模优势。
2、网络结构
设计了一个DARM块和TRM块
DARM就是综合使用了空间注意力和通道注意力提取特征,TRM就是使用的SwinTransformer的思想。然后对排列顺序做了消融实验,结果显示当前的D-T-T-D是效果最好的。
作者的解释是说,第一个DARM,关注重要的特征,第二个最后用来获取高级语义特征。
3、损失
分别是
有的设计梯度损失也是一个自适应的,融合结果图像分别和VIS和IR求2范数,然后分配系数比例,α和(1-α)也有的就是像本文这样的设计,梯度信息表示的就是边缘信息,取最大值的话,相当于突出强调了边缘,平滑了周围的信息。
4、实验结果分析
4.1 在TNO数据集上的结果
这里除了指标的对比,我想具体研究一下作者对比的方法的缺陷具体表现在什么地方,是由于什么原因造成的?
作者说PPTFusion保持IR的热辐射信息很好,但是显著性目标不太好,没有突出目标。
说Swin有低的对比度所以一些纹理细节被模糊了。
上图是SwinFusion,下图是我们的方法。
说明我们的方法在保持IR的热辐射信息和VIS的场景细节信息方面都很好。
在客观指标方面,本文都达到了最好。
指标没有包括EN,SCD,SSIM等一些更常用的呢?
4.2 在Roadscene数据集上的结果
中间的是RFN-Nest,右图是我们的结果,RFN的广告牌不够清晰,网络没有很好的保持IR的热辐射信息。
客观指标同样最优。
5、消融实验
5.1 模块的消融
把中间的块要么全换成transformer,要么就全是conv。
没有transformer的话,长距离建模性能差,融合结果有一定模糊。
没有DARM的话,就少了注意力的突出嘛,细节特征不太好。这一点,从下图中的左侧的条形线和车轮也能看出来。
因为这里,可见光图像中条纹线是一点都看不出来,所以这里最终的融合结果不可能和IR图像中的条形线一样清晰。
5.2 损失的消融
缺少pixel损失,会导致结果模糊。缺少梯度损失,出现伪影,丢失一些重要细节。缺少结构约束,图像受到不想要的噪声的影响。
这里L123分别为
L3也是包括梯度损失的,但其实不是说只要有梯度损失,边缘纹理细节就保持的很好了,见第一列右侧的条形线,IR和VIS中都非常清楚,但融合结果中却很模糊。
6、 验证模型泛化能力
6.1 Near-Infrared(NIR)和RGB可见光的融合
倒数第二列可以看出,我们的融合结果没有很好的显示最右边那个人。
作者解释说:
由于配准是图像融合的前提,现有的融合算法只能解决静态场景,当要融合的场景是动态的(参见最后两列)时,所有11种方法的性能都很差。基于这些观察结果,在未来,我们将提出一种实时融合方法来克服类视频场景融合的挑战。
6.2 红外和RGB可见光图像融合的实验
首先把RGB转换到YUV颜色空间,将VIS的Y分量和IR concat起来,不需要微调模型,然后送入网络进行测试。
7、总结
提到了未来的解决方向:
由于配准是图像融合的前提,现有的图像融合方法只能解决静态场景的融合问题。未来,我们将提出一种实时图像融合方法,克服动态场景下图像融合的挑战,实现类视频的融合任务。