图像融合是一种图像增强技术,其目的是融合不同传感器提供的图像,生成信息更丰富的图像,以便于后续处理。其中红外与可见光图像融合是计算机视觉领域中非常重要的部分。首先,红外图像与可见光图像的信号来自不同的模式,因此可以从不同方面提供场景信息;其次,二者几乎呈现了物体的所有特性,并且具有互补性。可见光图像捕获反射光,通常具有较高的空间分辨率和可观的细节和明暗度,但很容易受到恶劣条件如光照差、烟雾等的影响,而捕获物体热辐射的红外图像能够抵抗这些干扰,但通常分辨率低,纹理较差。根据二者的成像特点进行图像融合,得到的互补融合图像可以广泛应用到遥感图像分类[1-2]、目标检测[3-4]和视频监控[5]等领域。
图像融合分为像素级融合、特征级融合和决策级融合。在过去的几十年里,国内外学者提出了多种红外与可见光图像融合方法。在像素级融合方法中,具有代表性的方法有变换域的ADF[6]、CBF[7]和WLS[8]和稀疏域的ASR[9]、LP[10]等方法。变换域中基于多尺度变换[11]的方法最为活跃,将源图像分解成多个层次,用特定的规则融合相应的层次,再重建目标图像,但由于其忽略了融合过程中的空间一致性,容易在融合图像中引入光晕。稀疏域的方法[12]需要构建一个过完备字典,需要多次迭代,非常耗时。图像融合中合适的信息提取方法和有效的融合原理是保证融合性能的关键[13]。近年来随着深度学习的兴起,国内外学者提出了许多基于深度学习的融合方法。2017年,Prabhakar等[14]针对多曝光融合问题提出了基于卷积神经网络的图像融合方法(DeepFuse),该方法网络结构过于简单,并且只使用编码网络中最后一层计算的结果,中