1.摘要
由于深度特征图的不可解释性,现有的图像融合方法一直采用手动融合规则,这就限制了网络的性能并且导致失真。针对这些局限性,本文首次以深度学习的方式实现了特征图的可解释重要性评估。我们提出了一种基于像素分类显著性的融合规则。首先,我们采用一个分类器来分类两种类型的源图像,捕获两个类之间的差异和独特性。然后,每个像素的重要性被量化为它对分类结果的贡献。重要性以分类显著图的形式示出。最后,根据显著性图对特征图进行融合以生成融合结果。
2.引言
本篇论文的贡献点:
- 设计一种新的基于深度学习的融合规则,一般来说,我们采用分类器来分类可见光和红外特征图。然后,我们依靠特征图中每个像素对分类结果的贡献/显著性来评估其重要性/唯一性。从而突破了深度学习应用于融合规则的瓶颈。
- 现有的基于深度学习的方法需要手动定义要保留的特征,它们执行简单的融合规则,而不考虑特征的重要性或重要性。相比之下,我们的方法依赖于预先训练的分类器来自动保留重要/独特的特征。此外,与现有的融合规则相比,本文提出的基于分类显著性的融合规则具有更高的可解释性,特别是在CNN提取的特征图具有不可解释性的情况下。
- 此外,与现有的融合规则相比,本文提出的基于分类显著性的融合规则具有更高的可解释性,特别是在CNN提取的特征图具有不可解释性的情况下。
3. 相关工作
现有的VIF
在过去的几十年中,已经提出了许多融合方法的VIF。它们大多基于传统的融合框架。首先,应用多种传统方法从源图像中提取特征,例如多尺度变换、稀疏表示、子空间、低秩表示等。
在一些基于深度学习的方法中,特征提取是通过CNN实现的。然后,通过一些手动设计的融合规则的特征进行融合。最后,作为特征提取的逆过程,特征重构被用于生成融合结果。
此外,本文还提出了一些端到端的融合方法,打破了传统的融合框架,不需要设计融合规则,包括基于GAN的方法。融合过程不需要设计融合规则,而是贯穿于整个过程的端到端实现。不同之处在于,他们手动设置要保留的特征(源图像中的部分信息),并依赖这些特征来训练网络。例如,一些方法试图保留红外图像的强度分布和可见光图像中的梯度
现有的融合规则
到目前为止,融合规则的选择仍然是有限的,并且是手动设计的,包括choose-max ,addition ,average ,Max-l1 和l1-Norm规则。即使融合方法的整体框架相同,不同的融合规则也会对融合性能产生决定性的影响。
现有的融合规则对于融合特征是粗糙的原因如下。由于CNN的不可解释性和不可理解性,特征图中表示的特定特征是不可知的。由于特征图的未知性和可变性,很难度量特征图不同区域的重要性。因此,通过分配像素级权重图来设计融合规则是毫无根据的,该权重图考虑了特征图的像素级重要性。在这种情况下,有限的融合规则的选择和他们的粗糙度限制了融合结果的改善。为了解决这个问题,我们提出了一种新的基于分类显著性的融合规则。考虑到可解释神经网络的可行性,我们依靠二元分类器来评估特征图中每个像素的贡献/显着性,指示是否需要将其融合到结果中。然后,生成分类显著图以融合两种类型的特征图。该方法被称为基于分类显著性的融合方法(CSF)。
4. proposed method
我们首先使用编码器来提取特征图作为源图像的综合描述
{
ϕ
v
1
,
.
.
.
,
ϕ
v
N
}
=
f
e
(
V
)
,
{
ϕ
i
1
,
.
.
.
,
ϕ
i
N
}
=
f
e
(
I
)
\lbrace{\phi^1_v,...,\phi^N_v}\rbrace=f_e(V),\lbrace\phi_i^1,...,\phi_i^N\rbrace=f_e(I)
{ϕv1,...,ϕvN}=fe(V),{ϕi1,...,ϕiN}=fe(I)
其中
f
e
f_e
fe表示从encoder中学到的提取函数,
ϕ
v
和
ϕ
i
\phi_v和\phi_i
ϕv和ϕi分别表示从
V
V
V和
I
I
I中提取的特征图,
N
N
N表示特征图的数量
{
ϕ
f
1
,
.
.
.
,
ϕ
f
N
}
=
{
f
ϕ
(
ϕ
v
1
,
ϕ
i
1
)
,
.
.
.
,
f
ϕ
(
ϕ
v
N
,
ϕ
i
N
)
}
\lbrace \phi^1_f,...,\phi_f^N\rbrace=\lbrace f_{\phi}(\phi_v^1,\phi_i^1),...,f_{\phi}(\phi_v^N,\phi_i^N) \rbrace
{ϕf1,...,ϕfN}={fϕ(ϕv1,ϕi1),...,fϕ(ϕvN,ϕiN)}
ϕ
f
\phi_f
ϕf表示融合后的特征图,
f
ϕ
表示提出的融合规则
f_{\phi}表示提出的融合规则
fϕ表示提出的融合规则,最后的融合图像由
f
e
f_e
fe逆变换
f
d
f_d
fd得到
F
=
f
d
(
ϕ
f
1
,
.
.
.
,
ϕ
f
N
)
F=f_d(\phi^1_f,...,\phi_f^N)
F=fd(ϕf1,...,ϕfN)
4.1 特征提取和重构造
为了学习
f
e
f_e
fe和
f
d
f_d
fd,使用一个标准的编码解码器去实现,这个网络架构如下图所示
- 红外和可见光图像作为原始输入,从每个输入中提取N个特征图
- encoder-decoder被优化通过最小化输入和输出之间的相似性损失
L s i m = 1 − S S I M ( X , Y ) + λ ∣ ∣ X − Y ∣ ∣ F 2 L_{sim} = 1-SSIM(X,Y)+\lambda||X-Y||_F^2 Lsim=1−SSIM(X,Y)+λ∣∣X−Y∣∣F2
4.2 分类显著性评价
设计融合规则,目的就是保留重要的部分,丢弃冗余的信息,这是通过评估融合后的特征图的重要性来实现。
一些很直观的方法就是利用红外图像的一部分去替换可见光对应的一部分(反之也行),然后观察替代后的结果。有两种情况如下:
- 如果这部分是多余的,结果看起来还是像可见光图像
- 如果这部分是重要的,包含了不一样的信息,最后的结果就有点类似红外图像了
为了量化图像的风格,我们使用二元分类器来测量图像属于特定风格的概率,此外,分类器通常专注于捕获每个类的最重要特征和最明显的特征。因为它可以比较不同类型的信息并帮助识别重要且值得保存的信息,因此,我们使用一个分类器来帮助定量设计的融合规则。
4.3 Channel-Wise Replacement for Intuitive Validation
为了直观验证,利用一个图像对作为例子去执行通道替换,当输入是红外特征图,这个红外的可能性就接近1,然后,我们将二十四个红外特征图中的一个替换为按通道顺序排列的相应的可见光特征图。替换策略如下图所示:
上图中红外概率小于0.5。这表明这些通道具有重要的/独特的信息,因为输入是红外图像,加了可见光之后分类器判断是红外图像的概率小于0.5,那就说明是这个可见光信息是重要的信息
4.4 Channel-Wise and Pixel-Wise Importance Evaluation
通道的替换本质上是一种改变原始值的方法,从数学上来表示二元分类器为 y = { y 1 , y 2 } y=\lbrace y_1,y_2\rbrace y={y1,y2}, y 1 y_1 y1表示可见类别的概率, y 2 y_2 y2是红外类别的概率。 y k = m a x ( y 1 , y 2 ) y_k = max(y1,y2) yk=max(y1,y2)表示预测类的概率。
我们用 φ v φ_v φv(红外特征图)中的特征图顺序地改变 φ i φ_i φi(可见光特征图)中的每个特征图,并观察 y k y_k yk中的变化。即 Δ y k \Delta y_k Δyk
此外,不仅是通道对图像融合结果有影响,就连通道中的像素也对结构有影响。
为了评估逐像素重要性,我们用 Δ ϕ i p , q n \Delta \phi^n_{i_{p,q}} Δϕip,qn观察 Δ y k \Delta y_k Δyk,其中 Δ ϕ i p , q n \Delta \phi^n_{i_{p,q}} Δϕip,qn表示第n个红外特征图的第p行第q列中的像素,实际上 Δ y k \Delta y_k Δyk随着不同的 Δ ϕ i p , q n \Delta \phi^n_{i_{p,q}} Δϕip,qn值而变化, 为了使 Δ y k \Delta y_k Δyk对瞬时变化敏感,根据梯度的定义,设置 Δ ϕ i p , q n \Delta \phi^n_{i_{p,q}} Δϕip,qn–> 0,然后,每个像素的重要性可以被评估为 C i p , q n = ∣ ∂ y k ∂ ϕ i p , q n ∣ C^n_{i_{p,q}}=|\frac{\partial_{y_k}}{\partial_{\phi^n_{i_{p,q}}}}| Cip,qn=∣∂ϕip,qn∂yk∣
C i C_i Ci定义为红外分类显著图, C i p , q n C^n_{i_{p,q}} Cip,qn表示第n个红外分类显著性图的第p行第q列中的像素。
4.4 Integral Gradients for Importance Evaluation
在此基础上,提出了一种基于梯度的评价方法,并对其进行了进一步的改进,突破了梯度法的局限性。改进的评价方法用于生成最终的分类显著图。假设上式可以直接用于量化分类重要性,然而,当像素或特征图增强到一定程度时,其对分类决策的贡献可能达到饱和,这称为梯度饱和
为了阐述这个现象,我们逐渐改变这个输入特征图从
ϕ
i
\phi_i
ϕi到
ϕ
v
\phi_v
ϕv,下图是输出可见光可能性变化图
我们从
φ
i
φ_i
φi开始,逐渐改变输入,可见概率迅速增加。然而,当输入超过中间值时,即
(
φ
i
+
φ
v
)
/
2
(φi + φv)/2
(φi+φv)/2时,可见概率的增长速率减慢甚至不再增加。
换句话说,输入对 y k y_k yk的影响达到饱和,在上图的右半部分中,饱和区域中的梯度将对分类显著性评估做出误判。
为了解决这个问题,我们更加关注非饱和区的非零梯度。为此,我们使用积分梯度,其优越性已得到验证。积分梯度的计算取决于两个因素:积分路径和积分步骤。
对于积分路径,将起点设置为基线红外特征图$ ψ i ($要分配)。端点设置为 φ i φ_i φi。为了直观的解释,图6的水平轴可以看作是积分路径的示例。在积分步骤定义为L的情况下,积分路径中的特征图可以定义为:
χ i p , q n ( l ) = l L ψ i p , q n + ( 1 − l L ) ϕ i p , q n , l ∈ { 0 , 1 , . . . , L } \chi^n_{i_{p,q}}(l)=\frac{l}{L}\psi^n_{i_{p,q}}+(1-\frac{l}{L})\phi^n_{i_{p,q}},l\in\lbrace 0,1,...,L\rbrace χip,qn(l)=Llψip,qn+(1−Ll)ϕip,qn,l∈{0,1,...,L}
其中 χ i p , q n \chi^n_{i_{p,q}} χip,qn表示积分路径的第 l l l步
至于 ψ i ψ _i ψi的特定设置,我们期望沿着积分路径, y k y_k yk具有最大变化范围。因为端点是固定的,所以起点 ψ i ψ _i ψi应该对应于最低的 y k y_k yk。由于 ϕ v \phi_v ϕv属于相反的类别,因此 ϕ v \phi_v ϕv对应于最低的红外概率。因此,我们设置 ψ i = ϕ v ψ _i=\phi_v ψi=ϕv。然后,我们在积分路径中执行线性插值以近似积分过程。根据积分梯度,我们使用 y k y_k yk对积分路径中所有步骤的梯度之和来表示相应的分类显着性
C i p , q n = 1 L ∑ l = 1 L α l ∣ ∂ y k ∂ χ i p , q n ( l ) ∣ C^n_{i_{p,q}}=\frac{1}{L}\sum_l=1^L\alpha^l|\frac{\partial_{y_k}}{\partial_{\chi^n_{i_{p,q}}(l)}}| Cip,qn=L1l∑=1Lαl∣∂χip,qn(l)∂yk∣
其中 α ∈ [0,1] 是衰减系数。由于非饱和区域中的梯度比饱和区域中的梯度更准确地反映了重要性,因此我们使用 α 来分配不同的权重。可以看出,等式(5) 是L = 1而不衰减 (α = 1) 的特殊情况。最终的红外显着性图 C i C_i Ci可以通过Eq(7)获得。可以通过替换 χ i \chi_i χi以相同的方式获得可见的显着性图 C v C_v Cv。
Pixel-Level Weighting
由于分类显着性图是通过梯度获得的,因此由于存在偏差,因此无法直接将它们用作权重图。为此,执行后续处理以消除偏差:
ω v , ω i = s o f t m a x ( C v δ , C i − μ i + μ v δ ) \omega_v,\omega_i =softmax(\frac{C_v}{\delta},\frac{C_i-\mu_i+\mu_v}{\delta}) ωv,ωi=softmax(δCv,δCi−μi+μv)
其中
ω
v
ω_v
ωv和$ ω_i
分别是可见光和红外特征图的权重图。
分别是可见光和红外特征图的权重图。
分别是可见光和红外特征图的权重图。μ _v$和
μ
i
μ _i
μi是
C
v
C_v
Cv和
C
i
C_i
Ci的平均值。它们用于减轻偏差对softmax结果的影响。δ 是一个温度参数。它控制着重量的间隙。当 δ 较小时,权重将分别接近0和1。相反,当 δ 较大时,两个权重都将在0.5左右。在这种情况下,权重图将失去其功能。采用softmax函数将
ω
v
ω_v
ωv和$ ω_i$中的每个元素映射到0和1之间的实数,并保证相应位置的元素之和为1,即
ω
v
p
,
q
n
+
ω
i
p
,
q
n
=
1
\omega^n_{v_{p,q}}+\omega^n_{i_{p,q}}=1
ωvp,qn+ωip,qn=1
融合特征图通常表示为: ϕ f = ω v ⊙ ϕ v + ω i ⊙ ϕ i \phi_f= ω_v\odot\phi_v+ω_i\odot\phi_i ϕf=ωv⊙ϕv+ωi⊙ϕi
5.总结
在本文中,提出了一种新的深度模型,特别是一种新的基于分类显著性(CS)的融合规则,以解决可见光和红外图像融合(VIF)问题。在该方法中,我们采用一个分类器来分类两种类型的源图像。接下来,我们使用每个像素对分类结果的影响来衡量它们的重要性/贡献,并生成分类显著性图。因此,特征图的重要性/唯一性可以由具有较少人类参与的显著性图来表示。然后,可以根据显著性图来融合特征图,并用于生成融合结果。以这种方式,不需要人工设计融合规则或人工决定要保留的特征。从而突破了深度学习应用于融合规则的瓶颈,即特征图的不可解释性。定性和定量实验都证明了我们的方法优于目前最先进的。在我们未来的研究中,我们将建议CSF应用到更多的图像融合任务,例如,多聚焦图像融合、多曝光图像融合等。