Image fusion in the loop of high-level vision tasks: A semantic-aware real-time infrared and visible image fusion network
高级视觉任务循环中的图像融合:语义感知的实时红外和可见光图像融合网络
背景
现有的融合算法,单方面关注融合图像的视觉质量和评价指标,而忽略了高层次视觉任务的需求。为应对此挑战,开发了图像融合与高级视觉任务之间的差距,提出,语义感知的实时图像融合网络。
贡献
将图像融合模块和语义分割模块级联,利用语义损失引导高级语义信息回流到图像融合模块,有效提升了融合图像上高级视觉任务的性能;设计了梯度残差密集块,增强融合网络与细粒度空间细节的描述能力。SeAFusion可以保持像素强度分布和保留纹理细节;引入了一个分割网络来预测融合图像的分割结果,并用于构建语义损失。然后,利用语义损失通过反向传播来指导融合网络的训练,迫使融合图像包含更多的语义信息
- 融合分割框架,在融合和分割任务上都取得了好的性能
- 梯度残差密集块,提升网络对细粒度细节的描述能力
- SeAFusion轻量级,实时图像融合,可以当作高级视觉任务的预处理模块加粗样式
- 任务驱动的评估方式,从高级视觉任务的角度评估图像融合性能
方法
融合网络
融合网络是个轻量化的,层数很少,创新点在于用选择 Sobel 算子作为梯度算子,提取特征图的细粒度细节信息。
分割网络
分割网络用的基础的BiSeNet
训练策略
现有的任务驱动的低级视觉方法要么采用预训练的高级模型来指导低级视觉任务模型的训练,要么在一个阶段联合训练低级和高级视觉任务模型。然而,在图像融合领域,很难提供融合图像的真值来训练高级视觉任务模型。此外,一阶段联合训练策略可能导致难以在低级和高级视觉任务之间保持性能平衡。为此,我们设计了一个低级和高级联合训练策略来训练我们的核聚变网络。
损失函数
我们的SeAFusion旨在加强融合图像中的语义信息,同时提高视觉质量和评估指标。为了实现这些目标,我们从两个角度设计了损失函数。一方面,SeAFusion需要充分整合源图像中的互补信息,如红外图像中的突出目标和可见光图像中的纹理细节。为此,内容丢失旨在确保融合图像的视觉保真度。另一方面,融合图像应有效地促进高级视觉任务。为此,我们构建了一个语义损失,以反映融合图像对高级视觉任务的贡献程度。
Content loss
Lint是L1损失约束融合的整体表现,通过最大选择策略整合了红外和可见光图像的像素强度分布。
Ltexture是Sobel 渐变算子,用于测量图像的细粒度纹理信息。
Semantic loss
分割的损失函数
Thinking
融合和分割同时进行,共同优化,让融合的结果更有利于下游任务,在融合网络中加入了Sobel卷积,提取细粒度信息。