VIF-Net：RGB和红外图像融合的无监督框架

最新推荐文章于 2024-10-27 20:18:51 发布

Change_ZH

最新推荐文章于 2024-10-27 20:18:51 发布

阅读量1w

点赞数 17

分类专栏：深度学习文章标签：计算机视觉 python 神经网络深度学习

本文链接：https://blog.csdn.net/qq_36449741/article/details/104562999

版权

深度学习专栏收录该内容

60 篇文章

订阅专栏

📝论文下载地址

[论文地址]

🔨代码下载地址

[代码地址-unofficial]

👨‍🎓论文作者

Ruichao Hou, Dongming Zhou, Rencan Nie, Dong Liu, Lei Xiong, Yanbu Guo, and Chuanbo Yu

📦模型讲解

[背景介绍]

图像融合时信息融合的一种，本质就是增强技术，运用多传感器获得的不同数据来提高网络性能。相对于单传感器的数据局限于一种数据的特性，多传感器能同时利用多中数据的特性，在视频监控、卫星成像、军事上都有很好的发展前景。对于本文来说，可见图像提供了丰富的纹理细节和环境信息，而红外图像则受益于夜间可见性和对高动态区域的抑制。如下图所示，左边时红外图像，右边是可见光图像。

图像融合最关键的技术是怎么样能融合利用多种数据的优势。往往引入多种数据是双面性的，所以要抑制数据的不同带来的干扰。例如做变化检测的时候，往往因为成像不同而网络会错误地检测为变化。

上图展示了图像融合的基本操作，将可见光和红外图像同时输入网络中，进行特征提取，之后进行特征融合，最后特征重建，生成融合图像。中间网络的部分也就是作者提出的VIF-Net。

[论文解读]

作者主要针对其他融合方法有计算成本的局限性，而且需要手动设计融合规则。由此，作者提出了自适应的端到端深度融合框架VIF-Net，旨在生成信息更丰富的图像，包含大量的热信息和纹理细节。

[VIF-Net网络结构]

VIF-Net的全称为Visible and Infrared image Fusion Network就是可见光和红外图像融合网络。VIF-Net体系结构如下图所示，它由三个主要组件组成：特征提取，融合和重建。

可见图像和红外图像分别表示为 $I_A$ 和 $I_B$ ，它们输入到双通道中。通道 $A$ 由 $C 11$ 和包含 $D 11$ 、 $D 21$ 和 $D 31$ 的block组成。通道 $B$ 由 $C 12$ 和一个包含 $D 12$ ， $D 22$ 和 $D 32$ 的block组成。第一层( $C 11$ 和 $C 12$ )包含3×3的卷积以提取底层特征，每个 $D$ 中的三个卷积层也都是3×3的卷积。由于这两个通道共享相同的权重以提取相同类型的深度特征，因此此结构在降低计算复杂度方面也具有优势。在特征融合部分，作者尝试直接连接深层特征，也就是通道进行叠加。最后，特征融合层的结果通过另外五个卷积层( $C 2$ ， $C 3$ ， $C 4$ ， $C 5$ 和 $C 6$ ）来从融合特征中重建融合结果。下表概述了网络的更详细的体系结构：

从表格的结构可以看出，假设输出都是单通道的图像，经过前面的特征提取层，每一层的输出都会与后面所有层的输出直接相连，这里是通道叠加。这样，可见光通道会输出 $16 + 16 + 16 + 16 = 64$ 通道的特征图，两个网络通道会生成 $128$ 通道，在特征融合层进行通道叠加，输入特征重建的就是 $128$ 通道的特征图。

[M-SSIM+TV损失]

从上面的结构图可以看到，损失函数主要分为两部分 $L_{SSIM}$ 和 $L_{TV}$ ，作者设计的损失函数为：
$Loss=λL_{SSIM}+L_{TV}$

[SSIM]

SSIM是一种衡量图像结构相似性的算法，结合了图像的亮度，对比度和结构三方面对图像质量进行测量。原本的SSIM公式为：
$SSIM(x,y)=[l(x,y)]^α×[c(x,y)]^β×[s(x,y)]^γ$
其中 $l (x, y)$ 为亮度部分：
$l(x,y)=\frac{2μ_xμ_y+C_1}{μ_x^2+μ_y^2+C_1}$
其中 $c (x, y)$ 为对比度部分：
$c(x,y)=\frac{2σ_xσ_y+C_2}{σ_x^2+σ_y^2+C_2}$
其中 $s (x, y)$ 为结构部分：
$s(x,y)=\frac{σ_{xy}+C_3}{σ_xσ_y+C_3}$
其中 $μ_x$ 与 $μ_y$ 是图像的像素平均值， $σ_x$ 和 $σ_y$ 为像素的标准差， $σ_{xy}$ 为 $x y$ 的协方差， $C_1$ 、 $C_2$ 和 $C_3$ 是常数，防止分母为0。一般情况下， $α=β=γ=1、C_2=2×C_3$ 则：
$SSIM(x,y)=\frac{2μ_xμ_y+C_1}{μ_x^2+μ_y^2+C_1}×\frac{2σ_xσ_y+2C_3}{σ_x^2+σ_y^2+2C_3}×\frac{σ_{xy}+C_3}{σ_xσ_y+C_3} \\=\frac{2μ_xμ_y+C_1}{μ_x^2+μ_y^2+C_1}×\frac{2σ_{xy}+2C_3}{σ_x^2+σ_y^2+2C_3}\\=\frac{2μ_xμ_y+C_1}{μ_x^2+μ_y^2+C_1}×\frac{2σ_{xy}+C_2}{σ_x^2+σ_y^2+C_2}$
作者认为图像分辨率很低亮度就不是很重要，所以去除了亮度，重写公式：
$SSIM_M(x,y|W)=\frac{2σ_{xy}+C}{σ_x^2+σ_y^2+C}$
根据以上公式可以计算 $SSIM_M(I_A,I_F|W)$ 和 $SSIM_M(I_B,I_F|W)$ ，其中 $W$ 代表一个滑动窗口，大小为 $m \times n$ ，作者设置窗口为 $11 \times 11$ 、 $C=9×10^{-4}$ ，利用这个公式来衡量 $I_F$ 与 $I_A$ 或者 $I_B$ 哪个更相似。例如 $SSIM_M(I_B,I_F|W)>SSIM_M(I_A,I_F|W)$ 则 $I_F$ 与 $I_B$ 在窗口 $W$ 中更相似， $I_F$ 在窗口 $W$ 保留更多红外的信息。这样就能按以下公式自适应学习深度特征：
$W)=\frac{1}{m \times n} \sum_{i=1}^{m \times n} P_{i}$
$\text { Score }\left(I_{A}, I_{B}, I_{F} | W\right)=\left\{\begin{array}{l} \operatorname{SSIM}_{M}\left(I_{A}, I_{F} | W\right) \text { if } E\left(I_{A} | W\right)>E\left(I_{B} | W\right) \\ \operatorname{SSIM}_{M}\left(I_{B}, I_{F} | W\right) \text { if } E\left(I_{A} | W\right) \leq E\left(I_{B} | W\right) \end{array}\right.$
$L_{S S IM}=1-\frac{1}{N} \sum_{W=1}^{N} \operatorname{Score}\left(I_{A}, I_{B}, I_{F} | W\right)$
上面第一个公式是计算窗口内的平均值，之后计算SSIM如果包含更多 $A$ 的信息，那么将 $SSIM_M(I_A,I_F|W)$ 作为得分；如果包含更多 $B$ 的信息，那么将 $SSIM_M(I_B,I_F|W)$ 作为得分。第三个公式给出了 $L_{SSIM}$ 的计算方法， $N$ 为滑窗的总个数，将其取平均值后与1相减作为损失函数。

[TV]

TV全称是Total Variation译为总体变化，是一种衡量图片噪声的指标，传统的TV计算的公式为：
$\mathcal{R}_{V^{\beta}}(\mathbf{x})=\sum_{i, j}\left(\left(x_{i, j+1}-x_{i j}\right)^{2}+\left(x_{i+1, j}-x_{i j}\right)^{2}\right)^\frac{β}{2}$
其中， $x_i$ 代表一个像素，将其与水平方向+1的像素做差的平方，和垂直方向+1的像素做差的平方，两者之和开 $\frac{β}{2}$ 次方，对每个像素求和(除最后一行和列像素)，这样就计算出TV。所以如果他有噪声的话，TV会明显变大，因为像素之间的变化会很大。然而，TV很小的话，图像会很模糊，因为相近的像素相等TV最小。作者运用以下公式求取 $L_{TV}$ 。
$\begin{array}{c} R(i, j)=I_{A}(i, j)-I_{F}(i, j) \\ L_{T V}=\sum_{i, j}\left(\|R(i, j+1)-R(i, j)\|_{2}+\|R(i+1, j)-R(i, j)\|_{2}\right) \end{array}$
首先对 $I_A$ 和 $I_F$ 对应像素相减，得到 $R (i, j)$ ，对 $R (i, j)$ 求TV，作者取 $β = 2$ 。接下来作者提到， $L_{SSIM}$ 和 $L_{TV}$ 不在统一数量级， $L_{SSIM}$ 会比 $L_{TV}$ 低 $10^2-10^3$ 。所以，这会导致网络更偏重于TV，使得图像分辨率，对比度较低，这也符合TV过低的情况。作者于是引入平衡参数 $λ$ 使两种损失函数在同一水平上。
$Loss=λL_{SSIM}+L_{TV}$

[VIF-Net的训练]

作者从公开可用的TNO图像数据集和INO视频数据集中收集了25对覆盖不同场景的可见和红外图像。由于此数据集太小而无法满足训练要求，因此裁剪了约25000个尺寸为64×64的补丁，以扩展训练数据集而没有任何人工标签；数据集的样本如下图所示。此外，作者将网络训练了50个epoch，使用Adam优化器以 $10^{-4}$ 的学习率将损失。作者的网络是在TensorFlow上实现的，并在配备Intel E5 2670 2.6 GHz CPU，16 GB RAM和NVIDIA GTX1080Ti GPU的PC上进行了训练。

[结果分析]

[评价指标]

为了防止主观视觉的人为因素，作者使用物种可靠的量化指标：互信息/mutual information/ $M I$ 、边缘保持/edge retentiveness/ $Q^{AB/F}$ 、相位一致性/phase congruency/ $P C$ 、非线性相关信息熵/nonlinear correlation information entropy/ $Q^{NCIE}$ 、通用图像质量指数/universal image quality index/ $U I Q I$ 。

[ $M I$ ]

$M I$ 分数越高，表示从源图像获得的信息越丰富。公式如下： $I=\sum_{i_{A} \in I_{A_{F}}} \sum_{i \in I_{F}} p\left(i_{A}, i_{F}\right) \log _{2} \frac{p\left(i_{A}, i_{F}\right)}{p\left(i_{A}\right) p\left(i_{F}\right)}+\sum_{i_{B} \in I_{B}} \sum_{i_{F} \in I_{F}} p\left(i_{B}, i_{F}\right) \log _{2} \frac{p\left(i_{B}, i_{F}\right)}{p\left(i_{B}\right) p\left(i_{F}\right)}$
其中 $p(i_A,i_F)$ 为 $i_A$ 与 $i_F$ 的联合概率分布， $p(i_A)$ 为 $i_A$ 的边缘概率分布。

[ $Q^{AB/F}$ ]

$Q^{AB/F}$ 测量了从原图像到融合图像转移的图像边缘数量。公式如下：
$Q^{AB/F}=\frac{\sum_{i=1}^{N} \sum_{j=1}^{M}\left(Q^{A F}(i, j) w^{A}(i, j)+Q^{B F}(i, j) w^{B}(i, j)\right)}{\sum_{i}^{N} \sum_{j}^{M}\left(w^{A}(i, j)+w^{B}(i, j)\right)}$
这里比较难理解计算，简单来说，会通过边缘检测算法（Sobel边缘检测算法）计算出输入图像和融合图像的边缘信息，在通过上式得出指标，指标越高越好。具体的过程可以访问[多聚焦图像像素级融合方法研究-总第27页-论文页码第14页-⑥]

[ $P C$ ]

PC表示融合图像的结构，定义如下:
$PC=(P_p)^α(P_M)^β(P_m)^γ$
其中 $p$ ， $M$ 和 $m$ 分别是相位，最大力矩和最小力矩，且 $α = β = γ = 1$ 。

[ $Q^{NCIE}$ ]

$Q^{NCIE}$ 度量源图像和融合图像之间的非线性相关熵，定义如下：
$Q^{N C I E}=1+\sum_{i=1}^{3} \frac{\lambda_{i}}{3} \log _{256}\left(\frac{\lambda_{i}}{3}\right)$
其中 $\lambda_{i}$ 是非线性相关矩阵的特征值。

[ $U I Q I$ ]

另外， $U I Q I$ 是一种从相关损失，亮度和对比度三个方面来测量图像质量的评估指标。定义如下：
$I=\frac{\left[\frac{4 \sigma_{I, I_{F}} \mu_{I} \mu_{I_{F}}}{\left(\sigma_{I_{A}}^{2}+\sigma_{I_{F}}^{2}\right)\left(\mu_{I_{A}}^{2}+\mu_{I_{F}}^{2}\right)}+\frac{4 \sigma_{I_{B} I_{F}} \mu_{I_{B}} \mu_{I_{F}}}{\left(\sigma_{I_{B}}^{2}+\sigma_{I_{F}}^{2}\right)\left(\mu_{I_{B}}^{2}+\mu_{I_{F}}^{2}\right)}\right]}{2}$
其中 $μ$ 和 $σ$ 分别表示平均值和标准偏差， $σ_{I_AI_F}$ 是 $I_A$ 和 $I_F$ 之间的互相关。

[不同方法之间的对比实验]

下面三个表格展示了三种图像（“Human”、“Street”、“Kaptein”）的测试结果。可以看出VIF-Net取得不错的性能。

其中作者对损失函数的超参数的取值进行对比，Proposed-500/800/1000分别对应 $\lambda =500/800/1000$ 也就是下式：
$Loss=λL_{SSIM}+L_{TV}$
下图是三种图像的展示（自上向下是“Human”、“Street”、“Kaptein”），红色框是一些关键特征，可以看出效果很好：

从上图中可以看到，由于大量的人工噪声，RP和CBF的结果具有较差的视觉效果。此外，DLF，ADF，CVT，DTCWT，ASR，FPDE的结果看起来非常相似，并且会产生伪像，目标尚不清楚。此外，GFCE和GTF包含明亮而显眼的目标，但是基于GFCE的融合图像的背景由于细节和亮度的增强而失真。由于GTF可以平滑纹理，因此可见的细节和边缘会在一定程度上丢失。作者的方法会突出显示红外目标并保留纹理细节，从而在这些方法中提供最佳的融合性能。

上图示出了“Street”的融合结果。主要目标是将行人和路灯之类的信息融合到单个图像中，并尽可能保留车辆等环境信息。更具体地说，作者所提出的方法的结果完全保留了信号灯，板上的字母和行人信息。相反，GTF的结果会丢失大部分可见的细节，如标记区域所示。 DLF，ADF和FPDE的结果分辨率低，CVT，DTCWT和ASR将伪边缘引入融合图像，并且由于GFCE过度增强，融合结果中出现了伪影和失真。

上图中显示的结果与上述两组相似，并且在作者的结果中保留了突出特征，例如天空，雨伞，帐篷，尤其是行人特征。总而言之，GTF的结果会平滑可见的细节和边缘，GFCE会导致图像失真，CBF和RP引入噪声，而基于DLF，ADF，CVT，DTCWT，ASR和FPDE的方法会导致对比度和分辨率低。相反，作者的方法产生最佳的视觉效果。此外，在作者的方法中基于不同参数的结果非常相似，在视觉评估水平上的差异可以忽略不计。
通常，由于单个度量无法客观地测量融合质量，因此作者选择这五个可靠的度量来评估不同的方法。所提出的方法在 $M I$ ， $Q^{AB / F}$ ， $P C$ ， $Q^{NCIE}$ 和 $U I Q I$ 方面达到了最新的性能。特别是， $M I$ 指标表明，VIF-Net在保留显着特征和纹理细节方面没有明显的伪像和失真，具有很高的能力。
其他数据上的结果如下图所示：

其他数据上的结果在定量上的对比如下图所示， $M I$ 指标比其他比较方法的 $M I$ 指标高得多，而其余的指标通常要好于其他比较方法：

[不同λ之间的对比实验]

首先作者选取 $\lambda =50/500/5000$ 得到下图结果：

从实验结果来看，当 $λ = 500$ 和 $λ = 5000$ 时，融合结果差异不大，但后者丢失了一些纹理细节。直观地，为了进一步突出红外目标，作者假设最佳 $λ$ 将略大于500。为估计VIF-Net的性能，将 $λ$ 的平均得分参数 $λ$ 设置为100、300、500、800和1,000。提议的方法列于下表。

通过进一步分析，使用"Kaptein"对典型图像来证明VIF-Net的通用适应性，如下图所示。以"Kaptein"图中的结果为例，执行减法运算以方便观察差异。如下图所示，在视觉评估水平上的差异可以忽略不计。

作者认为可以在λ= 1000时获得最佳融合结果，以下结果均是采用此参数。

[推理时间对比]

其他方法（包括DLF，CBF，GTF，GFCE，CVT，DTCWT和FPDE）包含优化算法或复杂的比例转换，并且需要大量迭代，因此平均运行时间较长。相比之下，由于降维算法和结构简单，ADF和RP的计算复杂度较低。总体而言，由于VIF-Net具有简单的网络结构和较高的运行效率，因此在实时视频融合中也很有效，下表展示运行一次所用的平均时间：

[扩展实验-视频融合]

作者选取两组视频进行试验，选择计算复杂度较低的ADF和DTCWT和作者提出的方法：
① “ ParkingSnow”，共有2941帧，大小为448×324。
第一行是ADF方法，第二行是DTCWT方法，第三行是VIF-Net，最后一行是标定的移动物体。

②“ TreesAndRunner”，共有558帧，大小为328×254。
第一行是ADF方法，第二行是DTCWT方法，第三行是VIF-Net，最后一行是标定的移动物体。

在绿色标记区域中，作者发现行人特征丢失，并且融合帧的对比度在ADF和DTCWT的结果中较弱。此外，DTCWT的结果导致目标边界周围出现重影伪影。但是，VIF-Net克服了这些缺点。表VII中列出了视频融合的平均客观评价指标。 VIF-Net在视频融合方面也表现出色。VIF-Net每帧的平均运行时间为0.22s和0.15s，基本可以满足实时融合应用的要求。
下面是融合后的指标对比，前三行是第一组视频，后三行是第二组视频。