Underwater scene prior inspired deep underwater image and video enhancement

英文文献翻译(水下场景优先激发水下深度图像和视频增强)
在线发表于2019年9月5日


一、abstract

在水下场景中,依赖于波长的光的吸收和散射降低了图像和视频的可见性。退化的水下图像和视频影响了水下场景模式识别、视觉理解和关键特征提取的准确性。本文提出了一种基于水下场景先验的水下图像增强卷积神经网络(CNN)模型,称为UWCNN。本文提出的UWCNN模型不需要对水下成像模型的参数进行估计,而是直接重建出清晰的水下潜伏图像,这得益于先验的水下场景,可以用来合成水下图像训练数据。此外,基于轻量级的网络结构和有效的训练数据,我们的UWCNN模型可以很容易地扩展到水下视频中进行帧对帧的增强。具体来说,我们首先将水下成像物理模型与水下场景的光学特性相结合,合成了涵盖不同水体类型和退化程度的水下图像退化数据集。然后,设计了一个轻量级的CNN模型来增强每种水下场景类型,并利用相应的训练数据对其进行训练。最后,将该UWCNN模型直接扩展到水下视频增强。对真实和合成的水下图像和视频的实验表明,该方法对不同的水下场景具有很好的适用性


二、Intorduction

获取清晰的水下图像和视频对于水下场景的感知和理解具有重要意义,自主和远程操作水下机器人广泛应用于海洋环境的探索、识别和交互。然而,原始的水下图像和视频很少能满足有关视觉质量的期望,并进一步挑战模式识别、物体检测、关键特征提取等方面的性能。这是因为大多数深度网络都是由高质量的图像或算法进行训练的,只要输入的是清晰的图像。自然地,水下图像会因为水中粒子(包括微小的浮游植物、有颜色的溶解有机物和非藻类粒子)的光吸收和散射的不利影响而退化。当光在水下环境中传播时,它具有与光的波长有关的选择性衰减的特性。图1给出了光相对于光波长的衰减图
在这里插入图片描述
这些吸收和散射问题阻碍了水下机器人检测和海洋环境监测等水下场景的理解和识别。此外,传统的图像增强方法在处理水下图像和视频时存在局限性。此外,由于缺乏足够和有效的训练数据。基于深度学习的水下图像和 视频增强方法的性能无法与基于深度学习的解决方案的成功相提并论,如分类、分析、分割、超分辨率、识别等。为了提高水下视觉质量,提高高水平视觉任务的性能,研究水下图像合成和增强方法是十分必要的。

近年来,越来越多的基于深度学习的方法被提出。与传统的非基于学习的方法相比,深度模型有一些优势:1)深度学习提供了强大的扭曲建模能力,并有助于区分先验学习,2)深度模型的推理可以通过利用并行处理平台有效进行。受深度学习在模式识别和视觉理解方面的成功启发,我们提出了一种新的水下图像合成算法,使用水下场景先验,然后设计为水下图像和视频增强提供一个鲁棒的数据驱动的解决方案。结果表明,所提出的方法对不同的水体类型具有较好的鲁棒性、准确性和灵活性。

贡献:我们设计了一个复杂和非线性水下图像形成模型的端到端解决方案,使用一种新的CNN结构训练的水下场景先验的水下图像。我们的模型稳健地恢复退化的水下图像,并准确地重建潜在的颜色和外观。此外,由于网络结构轻量级,该模型可以很容易地扩展到水下视频。

  • 提出了一种新的基于水下场景先验的水下图像合成算法,能够模拟多种退化的水下图像。据我们所知,这是第一个能够模拟不同水下类型和退化程度的水下图像合成算法。我们的图像合成可以用于指导网络训练和全参考图像质量评估。
  • 我们提出了一种新的CNN模型,通过联合优化多项损失来重建清晰的水下图像,同时保留原始的结构和纹理。本模型利用轻量级网络设计和有效的训练数据,可扩展到水下视频中逐帧增强。
  • 该方法对具有多种颜色和可见性的水下图像和视频具有很好的推广意义。此外,在网络中嵌入有效的先验信息,轻量级的网络结构也能取得良好的效果,从而促进了模式识别、视觉理解等相关设计。

三、Related work

3.1、Underwater image enhancement method

在这方面的研究中,Li等将水下图像增强问题作为图像去雾步骤和颜色校正步骤来处理。Ancuti等人将对比度改善的水下图像和颜色校正的水下图像融合在一起。在多尺度融合过程中,利用4个权值来决定哪个像素更适合出现在最终的图像中。在[15]中,提出了一种基于颜色校正和水下图像去雾的混合方法,利用图像颜色先验校正水下图像的颜色转换,并通过改进的图像去雾算法提高图像的可见性。Li等提出了一种基于弱监督颜色转移的水下图像颜色校正方法,该方法学习了水下图像与空中图像之间的跨域映射函数。受生成式对抗网络(GANs)的启发,Guo等人提出了一种用于水下图像增强的多尺度密集GAN,通过引入多尺度、密集串接和剩余学习策略来提高水下图像增强的性能。Ancuti等人对他们之前的工作进行了修改,以减少过度增强和过度曝光的影响。最近,Li等人提出了一种基于成对水下图像和相应参考图像训练的深基线模型。这些参考图像是通过不同的方法从增强结果中主观地选择出来的。

3.2、Underwater image restoration method

水下图像恢复方法通常将当前的问题作为逆问题来考虑,然后构造退化的物理模型,最后估计模型参数。Chiang和Chen将图像去雾算法和波长相关补偿算法相结合,恢复水下图像,可以去除水下图像的蓝色色调和人工光的影响。一种红色通道方法通过恢复与短波长相关的颜色来恢复失去的水下图像对比度。drew等人提出了一种水下暗通道先验UDCP,它对之前的暗通道先验[23]进行了修改。利用提出的UDCP,可以在某些情况下估计介质传输;然而,当水下场景中有白色物体或人造光时,UDCP并不总是成立。Li等将水下图像去雾算法与对比度增强算法相结合。Peng等人基于图像模糊和光吸收,是一种基于先验的水下图像恢复方法。Li等人提出了一种基于CNN的水下图像颜色校正模型,该模型基于在弱监督学习器中生成的合成水下图像。

3.3、Supplementary-information specific method

附加信息特定方法通常利用偏振滤波器、立体图像、场景的粗略深度等获得的附加信息


四、Underwater image formulation model

水下图像退化模型:
在这里插入图片描述
U λ(x)为捕获的水下图像;Iλ(x)是我们要的恢复图像;B λ为均匀全局背景光;λ是红光、绿光和蓝光通道的波长;x为水下场景中的一个点。介质能量比T λ( x )表示从水下场景中的x点反射后到达摄像机的场景辐射度的百分比,导致偏色和对比度下降。换句话说,T λ( x )是光的波长λ和从场景点x到摄像机的距离d ( x )的一个函数。
在这里插入图片描述
其中βλ是取决于波长的介质衰减系数,如图1所示。假设从x发出的光束在通过距离为d (x)的传输介质之前和之后的能量分别为E λ(x, 0)和E λ(x, d (x))。归一化剩余能比N λ对应于每单位传播距离的剩余能与初始能之比。它的值在水中的变化取决于光的波长。例如,红光具有较长的波长;因此,它衰减得更快,在开阔水域中比其他波长吸收得更多,这导致大多数水下图像呈蓝色。
水下图像的退化模型主要研究颜色和可见性的退化。


五、Proposed UWCNN model

5.1、Network architecture

UWCNN模型的架构:
在这里插入图片描述
网络的输入是一个RGB图像U。

5.1.1、Residuals

与传统的端到端方法不同,如[3]通过学习映射函数I = f -1 (U)直接预测I,我们允许我们的网络学习合成水下图像和复原图像之间的差异。请注意,这样的合成图像生成任务对于水下图像增强和修复来说是一个不简单的目标。它将在第5节中详细讨论。由于水下图像及其特征图在后续层中经过许多卷积滤波器的处理后才到达最后的损失层。尽管我们的网络并不刻意追求深度,但仍有可能出现梯度消失或爆炸的情况。为了避免在训练迭代过程中出现这样的问题,在损失函数之前强制学习残差。通过将网络的输入即U添加到网络的输出:
在这里插入图片描述

5.1.2、Enhancement units

UWCNN采用模块化结构,由具有相同结构和组件的增强单元(e单元)组成。假设r和c是ReLU和卷积的符号,那么卷积和ReLU对在第l块中的第一个运算是
在这里插入图片描述
其中,zl,0是l-th残差增强单元的第一个卷积- relu对的输出,θ l,0是与之相关的一组权值和偏差。通过组合卷积- relu对,获得
在这里插入图片描述
第l块的输出是将每个卷积- relu对输出z和输入图像U沿第三维拼接得到的:
在这里插入图片描述
第(l + 1)个增强单元的输出由:
在这里插入图片描述
最后,我们将所有的增强单元串连一起,这个链的输出与参数为参数为θl+ m,n的最后的卷积层进行卷积,以预测分量为
在这里插入图片描述

5.1.3、Network layers

我们的网络由三个不同的层组成,第一类是卷积层,用’Conv’表示,它由16个大小为3×3×3的卷积核组成,为第一层产生16个输出特征图,而随后的卷积层则用3×3×16的滤波器产生16个图。第二类是激活层’ReLU’,用于引入非线性。第三种类型是’Con-cat’层,用于在每个区块之后连接所有的卷积层。最后一个卷积层估计网络的最终输出。

5.1.4、Dense concatenation

我们将所有卷积层堆叠在每个块的末端。这种技术与[33]中提供的DenseNet不同,在[33]中,每个卷积层都与同一块中的其他卷积层连接。此外,我们没有使用任何全连接层或批处理规范化步骤,这使我们的网络工作内存高效和快速。此外,我们将输入图像输入到每个块。卷积层与输入数据的叠加减少了对深度网络的需要。总之,我们的网络是唯一的,因为(i)输入图像应用于所有增强单元,(ii)它只包含完全卷积层,没有任何批处理归一化步骤。

5.1.5、Network depth

我们的网络是模块化结构,由三个增强单元组成,每个单元又由三个卷积层组成。我们在网络的末端有一个卷积层;因此,使我们的网络的全深度只有十层。这使得我们的模型计算成本低廉,在训练和推理方面具有很高的实用性。此外,这种轻量级的网络结构可以很容易地扩展到水下视频中进行逐帧增强,这在实际应用中是很理想的。这种轻量级的网络结构主要得益于嵌入式先验,它增强了网络的训练和推理能力,鼓励了类似网络的设计,用于模式识别、目标检测和视觉理解。

5.1.6、Reducing boundary artifacts

在低级视觉任务中,系统的输出大小需要等于输入大小。这种需求有时会导致边界伪影。为了避免这种现象,我们实施了两种策略:(i)我们在网络中不使用任何池化层,(ii)我们在每个卷积层之前加0。因此,最终的UWCNN网络输出图像在边界附近几乎没有伪影,且大小与输入图像相同。

5.2、Network loss

为了重建图像,我们使用l2损失,因为在我们的观察中,它可以很好地保持边缘和细节的清晰度,因为模糊边缘会导致很大的误差。我们将估计的残余物添加到输入的水下图像中,然后计算l2损失为。
在这里插入图片描述
此外,我们在目标函数中加入了SSIM损失,将结构和纹理相似性强加于潜在图像。我们使用灰度图像计算SSIM分数。对于每个像素x,在该像素周围的一个13 × 13的图像补丁内计算SSIM值为:
在这里插入图片描述
其中μI ( x ) 和σ I ( x ) 对应于来自潜像I的图像补丁的平均值和标准方差,同样,μI ∗( x ) 和σ I ∗( x ) 是来自地面真实图像I∗的补丁。和σ I ∗( x )是指来自地面真实图像I ∗的补丁的交叉协方差 交叉协方差σ I ∗I ( x ) 是在I 和I ∗的斑块之间计算出来的。我们设定常数c 1 = 0 . 02和c 2 = 0 . 03 基于SSIM损失中的默认值。我们的模型对这些默认值不敏感 。不过,为了公平比较,我们还是把它们固定下来。SSIM损失表示为。
在这里插入图片描述
最终的损失函数L是MSE和SSIM损失的集合:
在这里插入图片描述

5.3、Post-processing

UWCNN生成的增强型图像没有色差,能见度极高。然而,由于我们的训练数据对的限制(室内图像作为潜伏图像,使用上述水下图像形成模型将室内图像合成的图像作为相应的水下图像),增强的图像的动态范围较低。在实践中,人们期望增强后的结果有鲜艳的色彩 和更高的对比度。
为了解决这个问题,我们采用了一个简单而有效的调整方法作为后处理阶段。我们把带有后处理的UWCNN表示为UWCNN + 。 称为UWCNN + 。图像首先被转换到HSI颜色空间。然后,它的饱和度和强度成分的范围在HSI色彩空间中被归一化为[0,1],
其中y max和y min是UWCNN图像的最大和最小饱和度或强度值。在这个简单的饱和度和强度归一化之后,我们将修改后的结果返回到RGB颜色空间。
在这里插入图片描述
样本结果如图3所示。可见,UWCNN有效地消除了这些真实水下图像中占主导地位的绿色失真,显著改善了对比度,同时保持了图像的自然外观和真实性。与UWCNN相比,UWCNN +的饱和度和强度法规化进一步提高了对比度和亮度,揭示了更多的细节。
在这里插入图片描述


六、Proposed underwater image synthesis algorithm

与高水平的视觉任务不同,在这些任务中通常有大量的训练数据集。但缺乏具有相应地面真相的水下图像数据集限制了基于深度学习的水下图像增强和质量评估的发展。为了填补这一空白,我们提出了一种基于水下成像物理模型和水下场景光学特性的水下图像合成算法。据我们所知,这是第一个基于物理模型的水下图像合成算法,可以模拟多种水体类型和退化程度,这对水下图像和视频增强的发展有重要贡献。
为了合成水下图像退化数据集,我们使用[9]中描述的不同海洋和沿海类别的衰减系数(即,开放海洋水域为I、IA、IB、II和III,沿海水域为1、3、5、7和9)。如前所述,Type-I是最清澈的,Type-III是最浑浊的开放海水。同样,对于沿海水域,1型最清澈,9型最浑浊。我们应用公式(1)和 (2)来建立十种类型的水下图像数据集,使用的是RGB-D NYU-v2室内数据集[37],其中包括1449张图像。我们选择前1000张图像作为训练集,其余的 449张图像作为测试集。
为了合成水下图像,我们首先生成一个随机均匀全球大气光0.8 < B λ < 1。然后,我们将深度d (x)从0.5 m修改为15 m,然后选择表1中所示的水类型的红色、绿色和蓝色通道对应的N λ值。对于每一幅图像,基于随机B λ和d (x)生成5幅水下图像;因此,我们得到50个样本的训练集和2495个样本的测试集。为了提高计算效率,我们将这些图像的大小调整为310 × 230。根据不同的水域类型,我们总共合成了10个水下图像数据集。
在这里插入图片描述

图4显示了一个样本的这10种不同类型的水下图像。可见,Type- i、Type- IA和Type- ib的水下图像在物理外观和特征上是相似的。因此,我们在10个模型中总共选择了8个模型来显示合成水下图像的结果。
在这里插入图片描述


七、Experimental evaluations

在这一部分中,我们将对合成的和真实的水下图像与最先进的水下图像增强方法进行定性和定量的比较。此外,我们还比较了不同方法在水下视频中的性能。这些比较的方法包括UDCP、RED、ODM和UIBLA。我们运行由作者提供的源代码与推荐的参数设置,以产生一个客观评价的最佳结果。对于无法获得光衰减系数的真实图像,我们应用了所学的10个UWCNN模型,并呈现出视觉上更吸引人的结果。这个过程可以通过使用分类阶段来选择最好的模型来改进,这将作为未来的工作。对于合成数据,我们呈现的结果没有经过后处理,因为这些模型是来自于合成数据,所以不需要强度和饱和度归一化的要求。最后,我们进行了一项消融研究来证明我们网络中每个组件的效果。

7.1、Network implementation and training

本文首先给出了对测试集合成的水下图像进行增强的结果。在图5 (a)中,合成的水下图像符合[9]的测量值。RED对明确类型有效,即Type-1、Type- 3、Type-5和Type- i;然而,对于浑浊类型,即7型、9型、ii型和iii型,它会在这些图像上留下雾霾,而且,它会导致颜色偏差。同样,UDCP产生明显的暗化结果,而ODM和UIBLA引入人为颜色或颜色偏差。另一方面,我们的方法不仅提高了图像的可视性,而且还恢复了一种美学上令人愉快的纹理和充满活力而真实的颜色。与其他方法相比,我们的结果的视觉质量类似于地面真实。
在这里插入图片描述
在这里插入图片描述

我们使用ADAM对模型进行训练,设置学习速率为0.0 02,β1为0.9,β2为0.999。我们在整个训练过程中确定学习率。batch大小被设定为16。在20个epochs中优化一个模型大约需要三个小时。我们使用TensorFlow作为深度学习框架,使用Inter®i7-6700k CPU。32GB内存,以及Nvidia GTX 1080 Ti GPU。

7.2、Evaluation on synthetic underwater image

我们对每种类型的2495个样本的合成测试集上的恢复图像进行了准确性量化。在表2中,精度由三种不同的度量来衡量:均方误差(MSE)、峰值信噪比(PSNR)和结构相似指数度量(SSIM)。对于MSE和PSNR指标,MSE越低(PSNR越高)表示结果在图像内容上更接近于地面真实值。在SSIM度量的情况下,SSIM分数越高,意味着结果在图像结构上越接近地面真实值.
在这里插入图片描述
可见,在我们测试的所有水下图像增强方法中,我们的方法在所有度量和所有退化类型中表现最佳,证明了它的有效性和鲁棒性。关于SSIM响应,我们的方法比第二好的性能至少好10%。同样,我们的PSNR比比较的方法更高(MSE分数表明错误更少)。

7.3、Evaluation on real-world underwater image

在这里插入图片描述
在这里插入图片描述
第一眼看图6,ODM和UIBLA的结果可能更清晰;然而,仔细观察发现,ODM会导致过增强和过饱和度(除了颜色转换),因为ODM之前使用的直方图分布并不总是有效的。同样,ubla产生的图像不自然,存在过度增强的问题,该方法的缺点是背景光的鲁棒性和由先验估计的介质传输分数不是最优的。图7和图8显示了ODM和uble的失效案例。RED和UDCP对输入的影响很小。相比之下,我们的UWCNN +在真实世界的图像上显示了有希望的结果,没有引入任何人工颜色,颜色投射,增强或不足的区域。
在这里插入图片描述

观察失败病例无花果。7和8所示,可以发现ODM会引入额外的颜色(例如,周围的红色珊瑚在图7),而我们的方法提高了对比,ODM类似的性能,但保持一个真正的原始的水下图像的颜色分布。对于图8中ubla的失效情况,它加剧了偏绿的颜色,产生了视觉上不愉快的结果。相比之下,我们的方法消除了颜色投射,提高了对比度和亮度,从而产生更好的可视性和愉快的感觉。
我们注意到文献[39,40]中的评估倾向于过度暴露或过度增强,直方图等方化方法被认为产生更好的分数。为了更客观的评估,我们进行了一个用户研究,以提供现实的反馈和量化主观视觉质量。我们从互联网和相关论文中收集了20幅真实世界的水下图像。我们在图9中展示了来自该数据集的样本。图6给出了相应的结果。
在这里插入图片描述

对于用户研究,我们将结果的顺序随机化,然后在屏幕上显示给人类受试者。有20名具有图像处理专业知识的参与者。每个受试者根据感知的视觉质量从1到5对结果进行排名,1是最差的,5是最好的。
对比度高、可见度好、颜色自然、纹理真实的结果应该得到较高的等级,而过度增强/曝光、不足增强/曝光、颜色投射和伪影的结果应该得到较低的等级。主观得分的平均值见表3。我们的UWCNN +获得了最高的排名,这表明我们的方法能够从主观的视觉角度对真实的水下图像产生更好的性能。
在这里插入图片描述

7.4、Evaluation on underwater video

为了验证我们的模型对水下视频增强的能力,我们对水下视频进行了实验。由于篇幅有限,在图10中仅给出部分实验结果。
在这里插入图片描述
在这里插入图片描述

如图10所示,我们的方法可以去除颜色投射,提高水下视频的对比度。此外,我们的结果在不同帧之间是一致的,没有闪烁伪影.相比之下,比较方法会在不同帧之间产生不一致的内容增强,从而降低了图像的视觉质量。例如,或帧54,ODM]产生视觉愉快的结果;然而,这种方法在帧1-4中引入了红色的颜色转换。其他方法也具有相似的不一致的增强性能。此外,我们报告了不同方法的运行时间(秒),以证明我们的模型可以用于逐帧视频增强,如表4所示。大小为640 × 480的图像的平均运行时间是在上述机器上计算的。
在这里插入图片描述
UWCNN-C/-G表示我们的模型分别只使用CPU或GPU运行。在表4中,我们的UWCNN-G比比较的方法更快,有很大的差距,这可能得益于GPU加速。然而,我们的UWCNN-C速度排名第二,这表明我们的轻量级网络结构也有助于我们的方法的处理速度。

7.5、Ablation study

为了证明我们的网络中每个组件的影响,我们进行了一项消融研究,涉及以下实验:(i)没有残留学习的UWCNN (UWCNN-w/o RL), (ii)没有密集级联的UWCNN (UWCNN-w/o DC),以及(iii)没有SSIM损失的UWCNN (UWCNN-w/o SSIM)。由于空间有限,定量评价仅在一类和三类综合测试集上进行。MSE、PSNR和SSIM的平均得分见表5。
在这里插入图片描述
从表5可以看出,将传统学习策略(即UWCNN-w/o RL)替换为剩余学习(即UWCNN)可以提高性能。通过对比UWCNN和UWCNN-w/o DC,我们发现密集级联也能提高水下图像增强的性能。使用SSIM损失(即UWCNN)以降低MSE和PSNR分数(即UWCNN-w/o SSIM)为代价改善了结构和纹理相似性。然而,为了更好的主观感受,这种牺牲是必要的。如图11所示,说明了SSIM损耗的重要性。在图11中,加入SSIM损失后,UWCNN结果的背景比UWCNN-w/o SSIM结果的背景更平滑。
在这里插入图片描述


八、Conclusion

我们提出了一个水下图像和视频增强网络的灵感来自水下场景。在合成的和真实的水下图像和视频上的实验证明了我们的方法的鲁棒性和有效性。我们的方法仅包含10个卷积层,每个卷积层有16个特征映射,可以在GPU平台上提供快速高效的训练和测试。实验结果也表明,残差学习、密集连接和SSIM损耗对网络的性能都有定量和定性的提高。
今后,我们将研究仅使用一个单一模型来预测正确的输出从一个盲目的UWCNN达到进一步加速UWCNN模型增强的过程中。在完整的图像退化模型中也考虑到室内训练数据引起的低对比度。我们将借鉴为模式识别和计算机视觉设计的深度模型的有效网络结构和损耗,进一步提高我们的方法的性能。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值