SuperFusion
SuperFusion: A Versatile Image Registration and Fusion Network with Semantic Awareness
具有语义感知的多功能图像配准与融合网络
背景:
现有的融合仅适用于配准后的图像,输入图像发生微小偏移或形变时,融合结果会出现伪影,忽略深层语义特征。提出将配准和融合放进同一个框架
贡献、总结
-
图像配准、图像融合和高层语义需求统一建模到一个框架中,这是第一个充分考虑图像配准的图像融合方法;
-
对称双向图像配准,有效地进行多模态图像对齐,对称性使融合和配准相互促进进行;
-
引入语义分割的约束,促使融合网络响应高层视觉任务的需求,嵌入全局空间注意力,实现自适应特征融合;
-
总结:三个部分组成,图像配准、融合、分割。
首先,设计配准网络估计双向形变场,以便使用光度和端点损失来提高精度。联合配准融合方案,平衡对输入模态的偏差,在融合域中通过相似性约束进一步促进配准。Lovasz-Softmax损失,促进融合网络生成结果更合理;
实验
数据集,MSRS、RoadScene与DASC、RIFT、GLU-Net、UMF-CMGR、Cross RAFT进行配准对比。
合成未配准影像
1.对红外图像合成随机仿射、弹性变换
2.对可见光图像合成随机仿射、弹性变换 合成未配准的影像
对于图像融合:MI,VIF,SSIM,FMI,Qabf,(评价指标)
分割实验,采用SeAFusion的分割模型 对多种方法得到的融合图像进行分割
配准可视化
紫色纹理为配准后红外图像的梯度,背景为对应的地面真实
融合可视化
方法:
- Dense Matcher用于估计形变场
- Fusion Network用于将配准后的图像和另一副图像融合
- Segmentation Network用于分割融合后的图像
- 进行双向配准,双向配准融合后的影像应该是一致的。Consistency Constraint双向优化配准和融合
Iir’是合成的红外影像
Ivi’是合成的可见光影像
Dense Matcher结构
输入是待配准的成对影像,第一层是共享的CNN,2、3、4层是不共享的CNN,多尺度的特征图可以学到不同大小的形变。Flow Esimator是粗略的光流估计器
融合网络
采用双编码器提取特征,使用全局注意力机制,让特征自适应融合。
GSAM是个全局注意力机制,用四方向的RNN得到上下文特征
分割网络
分割网络是这篇论文作者的另一篇论文SeAFusion的分割部分
损失函数
- 配准损失
L1损失函数,光度损失,配准后Ireg应该与原始I一致
端点损失,L2损失可以放大两者之间的差异,应用于两者之间的差异很小的情况
一致性损失,红外配准到光学的f1,应该和光学配准到红外的f2一致
- 融合损失
结构损失,指导融合网络保留结构信息
纹理损失,融合图像的梯度与源图像最大梯度聚合之间的误差,倒三角是Sobel gradient operator
融合强度信息,保留显著特征。设计了一个强度最大化损失LInt来指导融合网络自适应地融合源图像的强度信息(看着比较显著的信息)
融合损失=纹理+结构+强度 - 分割损失
IoU损失的差分替代Lovasz - Softmax损失
分割损失,seg1和GT,seg2和GT - 总损失
总损失=配准+融合+分割,共同优化
Thinking
双向配准以及一致性损失的利用,对配准和融合都有很好的效果。如果融合的目的是用于分割,增加用于分割的语义约束,可以生成更有利于分割的融合效果
L1损失函数和L2损失函数的用处:
任务中预测值与真实值差异不大的时候用L2来放大差异
由于L1 梯度在极值点会发生跃变,并且很小的差异也会带来很大的梯度,不利于学习,在使用L1时通常会设定学习率衰减策略