Twin Adversarial Contrastive Learning for Underwater Image Enhancement and Beyond总结

背景

水下图像失真严重,降低了在水下环境中进行物体检测的准确性。现有的水下增强方法主要通过强化阴影细节和真实反射来恢复场景辐射度。这些方法所得到的结果具有更生动的外观和更丰富的细节。然而,这些人类感知结果可能不利于后续算法理解场景内容。也就是说,视觉特征的改进对后续应用的影响原则上是有限的。

创新点

具体来说,我们首先开发了一个双边约束闭环对抗增强模块,它以无监督的方式降低了对配对数据的要求,并通过与孪生反映射的耦合保留了更多的信息特征。

由于缺乏大量成对的模糊-清晰水下图像,合成数据不能很好地模拟多样化的条件,我们采用了一个闭环约束对抗增强模块来实现模糊图像和清晰图像之间的转移。此外,我们还将来自空气图像的孪生反映射与正向程序相结合,以促进对真实世界数据的泛化。考虑到修复后的图像与退化图像和清晰图像之间的反向关系,我们引入了对比原则,即在一定的表现形式下,修复后的结果被迫接近空气中的图像,而远离失真的图像。通过这种方式,对比先验能够最大化交互信息,使结果具有更逼真的外观。

优势

1.开发了一种基于孪生对抗对比学习的水下图像增强方法,它利用水下图像与清晰图像之间的双边映射来缓解高度欠约束的修复特性。与同质监督方法相比,所提出的方法在现实世界中具有良好的普适性。
2.在训练过程中引入了对比原则,即考虑锚点之间正负相反的关系。它提供了丰富的相互信息和感知信息,使增强后的图像具有更合理、更真实的特征。
3.提出了任务感知反馈模块,该模块利用插入式检测器通过定位和置信度传输相干梯度信息,并将增强模块的更新限制在有利于检测的方向上。

相关工作

水下图像增强方法可分为三类,包括基于物理模型的方法、无模型方法和基于深度学习的方法。
基于物理模型的方法严重依赖手工创建的先验,鲁棒性较弱。无模型方法由于缺乏水下成像限制,增强后的结果往往会出现曝光过度的情况。基于深度学习的方法依赖于充足、真实的数据来学习强大的变换。由于现有数据无法完全覆盖复杂的水下环境,导致在真实世界中的泛化效果不佳。

水下图像视觉效果的改善不一定会带来检测精度的提高,因为算法和人眼对场景的感知方式不同。修正目标场景的颜色和对比度根本无法促进对场景的理解,这说明对后续检测任务的影响有限。因此,我们尝试引入物体检测的信息,以实现视觉质量的改善和任务友好性的增强。

网络框架

由于缺乏足够的真实世界监督数据,且合成图像与真实世界存在巨大差异,完全监督的水下增强方法存在泛化能力弱和鲁棒性差的问题。为了减轻对可靠数据的依赖,我们在方法中引入了无监督和自监督方式。具体来说,整个框架由对抗和对比增强两个模块组成。一个模块执行降解到空气中闭环生成过程,另一个模块执行空气中降解循环生成过程。通过所提出的迭代生成程序,即 X2Y 和 Y2X 模块,我们利用水下域和空中域之间的内部关系,实现了更具普适性的跨域特征转换。此外,我们还在框架中引入了对比原则,即不仅要考虑一致性,还要考虑差异性。也就是说,在感知特征提取器(PFE)获得的某个表征中,还原结果被迫接近于空气中的清晰图像,而远离真实世界中的水下图像,反之亦然,从而促进结果具有更合理的特征。

与直接在水下图像上进行检测相比,在增强图像上应用检测算法的性能并未出现预期的改善。因此,为了弥补视觉友好方位与检测友好方位之间的差距,我们嵌入了任务感知反馈模块(TAF)作为适配器,以传播检测的连贯信息,并引导增强的更新朝向检测友好方位。

双对抗增强模块

与以往直接将水下图像转换为清晰图像的映射方法相比,孪生对抗增强由两个闭环映射组成,每个闭环映射由一个前向增强路径和一个后向降级路径组成。前向路径旨在学习两个域之间的平移映射,即以 X 表示的水下图像和以 Y 表示的空中图像,并实现映射 F : X → Y;相反,后向路径利用清晰图像 Y 来呈现水下图像,映射 B : Y → X,这是 F 的逆过程。具体来说,在图的左侧部分,X 是观测到的水下图像,环路映射首先将水下图像转换到空气域,然后利用构建的空气图像 \widetilde{Y} 再次生成降解版 \widetilde{\widetilde{X}}。因此,这个向前向后的生成过程可以表述为
G_{F}G_{B}分别指F,B的映射函数。
在图的右侧部分,我们将真实世界的清晰图像 Y 输入后向降解网络,生成合成降解图像 \widetilde{X},它具有水下图像的特征,如偏色和浑浊。然后,利用前向增强网络根据生成的水下数据恢复清晰图像 \widetilde{\widetilde{Y}},表示为

除了两个反向生成器 G_{F}G_{B}之外,我们还在每个闭环映射中引入了两个判别器 DF 和 DB,其中 DF 的目标是将图像\widetilde{Y}\widetilde{\widetilde{Y}}与真实世界的清晰图像 Y 区分开来,而 DB 的目标是\widetilde{X}\widetilde{\widetilde{X}}与 X 区分开来。

对比先验

由于缺乏足够的真实世界水下配对监督数据,在框架中引入了对比原则,以生成更真实、更可信的结果。对比学习将现有数据分为两类,包括正样本和负样本,并学习一个表示空间,使结果更接近正样本,远离负样本。对于水下图像增强,我们假设观测到的水下图像 X 为负像,清晰的空中图像 Y 为正像。为了建立合理的表示空间,使用 VGG-19 作为感知特征提取器(PFE),记为 V,它的中间特征已被证明在感知空间中非常有用。为了充分利用中间特征,我们从一系列隐藏层中提取特征,并采用 l1 正则化来加强对比先验(CP),其表达式如下:

i 表示第 i 层的特征,ρi 表示权重参数。在本文中,我们设置 i = 1、3、5、9、13,其对应的权重 ρi = \frac{1}{32}\frac{1}{16}\frac{1}{8}\frac{1}{4}、1,因为深层特征比浅层特征包含更复杂的感知信息。将上述对比先验引入孪生对抗学习,我们就能减轻对大量可信图像的依赖,从而为这项任务提供更多灵活性。

任务感知反馈模块(TAF)

为了使增强模块的潜在结果更适合检测,并为其注入更多有利于检测的特征信息,提出了任务感知反馈模块(TAF)来生成感兴趣的图像。受语义损失(semantic loss)的启发,我们认为为高级视觉任务设计的精细网络具有描绘隐含特征的能力,并拥有大量语义信息。因此,提出的反馈模块旨在利用潜在特征,提供检测器的感知,从而在检测精度方面掌握对象信息。具体来说,利用增强数据对检测器进行预训练,以获得基本类别信息的特征。然后,采用带注释的水下图像对整个框架进行端到端联合训练,以获得有利于检测的增强效果。在整个框架中,退化的水下图像被送入增强模块,生成清晰的空中潜像,然后任务感知反馈模块评估检测任务的易感性,并将相干信息传递给增强模块,以指导视觉改进,从而更有利于检测器。值得一提的是,所提出的框架可以灵活地将任意探测器配备到反馈模块中,使其具有扩展性,以适应不同的探测器。(主要是为了物体检测)

现有的物体检测算法可分为两部分,即单级和两级。它们的主要区别在于,两阶段方法采用相应的区域提议算法,从输入中生成候选区域,并用分类器对候选区域进行分类。同时,单阶段方法直接输出边界框和分类标签。在本文中,单阶段方法和双阶段方法都可以作为检测前置器来应用,因为这些检测器的相干损失都是从相同的两个角度来设计的,包括置信度损失和定位损失,分别表示为
L_{conf} 衡量的是多个类别置信度的分类偏差,目的是尽量减小预测斑块与地面实况斑块之间的类别差异。L_{loc}指的是预测方框和地面实况方框之间的回归,以最小化位置差异。具体来说,在 SSD 检测器中,采用平滑 l1 损失作为定位损失:

其中 x 表示预测方框与地面实况方框之间的中心距离。另一方面,softmax loss 被用作置信度的具体衡量标准:
pre_{i} 和 gt_{i} 分别表示预测类向量和地面实况类向量的第 i 个元素。对于 RetinaNet(https://zhuanlan.zhihu.com/p/143877125),他们开发了一种焦点损失(focal loss)来替代 Lconf 中的交叉熵损失(cross-entropy loss),可以降低训练中大量简单负样本的权重,缓解单阶段对象检测中出现的正负样本比例严重失衡的问题。对于两阶段检测器,其检测反馈损失也是由来自 RPN 和 RCNN 的定位损失和置信度回归损失组成。

目标函数

使用孪生增强模块的每个闭环映射应用对抗损失。对于映射函数 F : X → Y 及其判别器 D_{F},目标函数可表示为:

G_{F}(X) 试图生成与 Y 相似的图像,而 DF 则旨在将 G_{F}(X)与真实的 Y 区分开来。
反向映射 B : Y → X 与 F 的目标相似:

对抗训练能够严格产生与目标域分布相同的输出。但从理论上讲,网络会将同一组输入图像翻译成目标域中各种随机排列的图像,其中所有这些映射都与目标分布非常匹配。因此,翻译后的图像可能并不是与输入相对应的理想结果。为了缩小满足目标域的解空间,进一步引入了一致性损失,以确保映射结果与输入图像之间的相关性。对于图中的左循环,逆向退化应该能够将\widetilde{\widetilde{X}}还原为接近于 X 的结果,即 X → G_{F}(X)→ G_{B}(G_{F}(X)) ≈ X;同样,图中的右循环也应该能够将结果还原为接近于 Y 的结果,即 Y → G_{B}(Y)G_{F}(G_{B}(Y)) ≈ Y。本文采用 l1 规范来度量差异,两个循环映射的一致性损失可表述为:

考虑到先验对比,孪生增强模块的目标是:
对象引导孪生对抗学习的全部目标,表述为:
λ1,λ2,λ3 控制四个部分的相对重要性,分别设置为 10、0.5、0.1。

实施细节

采用 ResNet 的架构作为生成器的前向增强和后向退化网络。采用了 patchGAN 来构建判别器,它输出的是二进制图而不是二进制值。

预训练:

孪生对抗增强采用 UIEBD (包含 640 幅训练图像),BSD500 (包含 500 幅图像)进行预训练
任务感知反馈模块使用的预训练数据是基线双对抗增强在 RUIE 数据集上获得的潜在增强结果。
在与特定检测器的联合训练中,使用了包含 2070 幅训练图像的原始 RUIE 。

数据集:

UIEBD 、UCCS 、SQUID  和 U45  数据集来评估性能。
为了评估增强水下图像对检测精度的改善,我们采用了带注释的水下检测数据集 RUIE 和 Aquarium^{1}

指标:

图像质量指标:PSNR、SSIM
检测特定的评估指标:平均精确度(mAP)、平均联合交际(mIoU)

定性比较:

  UIEBD数据集

UCCS数据集

U45数据集

定量比较:
消融实验:


单倍闭环网络(表示为 GAN)在一定程度上缓解了偏色现象,而在第二个样本中,偏蓝场景依然存在。而进一步学习反向循环映射的孪生反向网络(表示为 T-GAN)在色彩校正方面表现更好。考虑到对比度原理,我们在孪生网络中加入了对比度先验(记为 T-GAN-CP)。结果可以还原生动的外观和拉伸的细节。

对比先验研究:

对 L1 和 L2 损失进行了消融对比

检测任务评估:
检测精度比较:将增强后的结果应用于一系列检测算法
RUIE数据集上的检测效果

水族馆数据集上的效果
任务感知反馈模块:
旨在传播检测器的相干信息,迫使增强模块朝有利于检测的方向发展。
SSD 检测器的可视化比较                                       tSNE 投影结果

总结:

本文开发了一种基于对象引导的孪生对抗对比学习的水下增强方法,该框架实现的增强更适合于检测。首先,提出了一种孪生对抗约束增强模块,以实现劣化水下域与高质量清晰域之间的转换,其中开发了自学习方式的反向闭环映射,以消除对成对训练数据的依赖。此外,在训练过程中还引入了对比原理,使训练结果更加逼真。为了在增强结果中加入更多有利于检测的特征,我们在增强模块中加入了任务感知反馈模块,以传播目标导向。实验表明,我们的方法在质量改进和检测准确性方面优于其他表现优异的方法。此外,对其他下游视觉任务(如语义分割)的效果也得到了证实。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值