SSE
论文笔记:End-to-end learning for simultaneously generating decision map and multi-focus image fusion result端到端学习用于同时生成决策图和多聚焦融合结果
原文链接:Redirectinghttps://doi.org/10.1016/j.neucom.2021.10.115一、问题
1、一些使用解码器直接输出最终的融合结果的方法,由于解码器中的非线性映射机制,没有保留源图像中的真实像素值,在融合评价中几乎没有取得好的性能。
2、基于决策图的方法需要经验参数对DM进行校正,限制了它们对不同场景图像融合的泛化能力。
3、现有的多聚焦图像融合方法通常使用l2和SSIM作为目标函数来优化网络,这使得梯度特征在训练过程中丢失。
二、贡献
(1)提出一个端到端的训练网络来同时生成决策图和融合结果,它避 免了在推理阶段使用经验后处理方法。
(2)设计了梯度感知损失函数来引导网络保持梯度信息。
(3)对于多幅图像融合,设计了一种决策校准策略提高了实现效率。
三、网络结构
包括卷积操作、特征提取和决策两个路径。首先,我们使用特征提取路径来收集每个源图像的多尺度深度特征。其次,我们采用空间频率( SF )模块来计算每个尺度的活动水平。在决策路径中,串联多尺度活动水平,并将其输入到一些卷积操作中,以绘制出初始DM,它记录了每个源图像中每个像素应该被聚焦的概率。然后应用引导滤波器平滑DM的边界,得到最终的DM。最后,在级联融合模块并生成融合结果。
1、特征提取:4个密集连接的卷积层组成,用于提取多尺度的深度特征,在每个卷积层后使用CSE模块,相当于通道注意力,提升有用特征,抑制对当前任务用处不大的特征。
CSE:首先采用全局平局池化,将H*W的二维特征压缩为一维,每个一维向量就获得了全局感受野,然后两个全连接层对每个通道的重要性进行预测,生成一个能够表示各个通道重要性的Tensor,再作用到之前的特征图上。
SF:利用基于梯度的空间频率的方法来计算提取到的不同尺度的深度特征的梯度变化,以反映活动水平。RF为行向梯度,CF为列向梯度,最后用SFA-SFB获得每个尺度的活动水平图。
2、决策图
使用四个卷积层来生成初始的决策图DM,记录了源图像中哪些像素是清晰的(聚焦的),每个卷积层后用SSE模块,增强特征的鲁棒性和代表性。
为了平滑融合结果的边界,使用引导滤波和阈值操作,对初始的DM进行校正,得到边界平滑的决策图。较薄的边界区域会使融合结果不够平滑,较厚的边界又会丢失细节信息,本文的方法仅对边界区域使用阈值操作,使边界的融合结果控制在视觉可接受的范围内。
SSE:使用一个1*1的卷积来获取一个投影张量,每个单元是空间位置上所有通道的组合表示,用于对原始的特征图进行空间校准。
引导滤波:需要引导图的滤波,既保留梯度又使得边缘平滑,类似双边滤波,边缘保持,在高方差区域,保持值不变,在平滑区域,取临近像素的平均。
三、融合策略
根据最终的决策图对两张源图像加权求和,把源图像的聚焦区域融合拼接
损失函数
LDice是图像分割常用的损失函数,通过预测值和真实值计算相似度来优化生成的决策图。
LQg用于优化融合结果,把Qg设计成损失函数来优化融合结果,使网络在生成融合结果的过程中能够保留更多的梯度信息。
Qg是从源图像中转移到融合图像中的边缘(梯度)信息量的加权值,是一种像素级的图像融合质量评估指标。
公式(8)、(9)就是用Sobel算子计算得到的每个像素 i 梯度的强度和方向,(10)和(11)表示相对融合图像的相对强度和方向。由于(10)和(11)不可微,因此通过一个sigmoid函数来近似得到了公式(15)、(16),最后将评估指标Qg设计成了损失函数。
四、多图融合策略
把第一张图像作为基准线,分别与其他图像计算生成决策图,每张决策图就是第一张图像中每个像素比其他图像对应位置像素更清晰的概率,最后取每张图像最清晰的像素来生成融合结果。
五、实验