Deep Light Enhancement without Paired Supervision (非配对数据监督学习用于低曝光图像增强)

Deep Light Enhancement without Paired Supervision

注:本篇总结仅供学习交流

1.Abstracrt

    基于深度学习的方法在图像还原和增强方面取得了显著成功,但是当缺少成对的训练数据时,它们仍然具有竞争力吗?举一个这样的例子,本文探讨了弱光图像增强问题,在实践中,同时拍摄同一视觉场景的弱光和正常光照片极具挑战性。
  • 我们提出了一个高效的无监督生成对抗网络,称为EnlightenGAN,可以在没有弱光/正常光线图像对的情况下进行训练,但事实证明可以很好地推广到各种实际测试图像中。我们建议不要使用地面真实数据来监督学习,而是建议使用从输入本身中提取的信息对未配对的训练进行规范化,并针对低光图像增强问题的一系列创新进行基准测试,其中包括全局局部标识符结构,自我规范的知觉丧失融合和注意机制。通过广泛的实验,我们提出的方法在视觉质量和主观用户研究方面在各种指标下均优于最新方法。

2.Introduction

  • 在弱光条件下拍摄的图像对比度低,能见度差和ISO高噪点。这些问题既挑战了人们希望获得高可见度图像的视觉感知,也挑战了许多依赖计算机视觉算法的智能系统,例如全天自动驾驶和生物识别[1]。为了减轻这种退化,已经提出了大量算法,从直方图或基于认知的算法[2,3]到基于学习的方法[4,5]。使用深度学习的最新图像恢复和增强方法严重依赖于合成或捕获的已损坏和干净的图像对进行训练,例如超分辨率[6],去噪[7]和去模糊[8]。

  • 然而,成对训练图像的可用性的假设带来了更多的困难,在增强图像更不受控制的场景,如去雾、去雨或光线暗的改进:1)非常困难甚至不切实际的同步捕获损坏和地面实况图像相同的视觉场景(例如,光线和普通光照图像对在同一时间);2)从干净的图像中合成损坏的图像有时会有帮助,但这种合成的结果通常不够逼真,当训练后的模型应用于真实的低光图像时,会产生各种伪影;3)特别对于低光增强问题,在低光图像中可能没有唯一的或定义良好的高光真实图像。例如,任何从黎明到黄昏拍摄的照片都可以被看作是在同一场景拍摄的午夜照片的高亮版本。考虑到上述问题,我们的首要目标是增强低光照片与空间变化的光照条件和过度/不足的曝光伪影,而配对的训练数据是不可用的。

  • 受[9,10]启发,进行无监督的图像到图像转换,我们采用生成对抗网络(GANs)在低光图像空间和正常光图像空间之间建立不成对的映射,而不依赖于精确配对的图像。这使我们免于仅使用合成数据或在受控设置中捕获的有限真实配对数据进行训练。我们引入了一个轻量级但有效的单路径GAN,称为EnlightenGAN,而没有像以前的工作那样使用循环一致性[11、12、13、14],因此具有缩短培训时间的优点。

  • 由于缺乏配对的培训数据,我们纳入了一些创新的技术。我们首先提出一种双判别器来平衡全局和局部低光增强。此外,由于缺乏对真实数据的监督,提出了一种自正则化感知损失的方法来约束低光输入图像与增强图像之间的特征距离,该方法在局部和全局上都被采用,并结合对抗性损失对GAN进行训练。我们还提出利用低光输入的光照信息作为各深度特征层次的自正则注意图,对无监督学习进行正则化。由于没有监督的设置,我们表明EnlightenGAN可以非常容易地用于增强不同领域的真实世界的低光图像。

3.Contribution

  • EnlightenGAN是第一个成功地将非配对训练引入低光图像增强的作品。这种训练策略消除了对成对训练数据的依赖,使我们能够使用来自不同领域的更大种类的图像进行训练。它还避免了以前的工作[15,5,16]隐式依赖的任何特定数据生成协议或成像设备的过度拟合,从而显著改进了现实世界的泛化。
  • EnlightenGAN通过引入下列两个操作,获得了显著的性能。(i)一个处理输入图像中空间变化光照条件的全局-局部鉴别器结构;(ii)自正则化思想,通过自特征保留损失和自正则注意机制来实现。自正则化对于我们的模型的成功是至关重要的,因为在不配对的情况下,没有强有力的外部监督形式可用。
  • 通过综合实验,将EnlightenGAN与几种先进的方法进行了比较。测量结果包括视觉质量、无参考图像质量评估和人的主观调查。所有的结果都一致认可EnlightenGAN的优越性。此外,与现有的配对训练增强方法相比,EnlightenGAN被证明特别容易和灵活地用于增强不同领域的真实低光图像。

###4.Network&Loss Function

  • EnlightenGAN的总体架构:
    在生成器中,每个卷积块由两个3×3卷积层组成,然后进行批归一化处理和LeakyRelu激活。每个注意模块都有feature map与(调整大小的)attention map 相乘
    -** 在G网络当中通过输入的低光图片与attention map(1-input)进行训练,采用unet架构,最后结果的输出又进行了一次全局的attention知道,并应用resnet理论将生成的残差图与原图相加得到最终结果。**
  • 我们所提出的方法采用注意引导的U-Net作为生成器,利用双判别器对全局和局部信息进行引导。我们也使用自特征保留损失来指导训练过程和维护纹理和结构。在本节中,我们首先介绍两个重要的构建块,即、全局-局部判别器和自特征保持器的Loss,然后对整个网络进行详细的分析。
4.1.Global-Local Discriminators-全局/局部判别器
  • 我们采用对抗性损失来最小化实际光分布和输出正态光分布之间的距离。然而,我们观察到,一个图像级的香草鉴别器往往不能处理空间变化的光图像;如果输入图像有局部区域需要不同于其他部分进行增强,例如在整体黑暗背景中有一个小的亮区域,那么单独使用全局图像识别器往往无法提供所需的自适应能力。

  • 为了自适应地增强局部区域,在提高全局光照的同时,我们提出了一种新的全局-局部鉴别器结构,该结构使用PatchGAN进行真假鉴别。除了图像级全局鉴别器,我们还添加了一个局部鉴别器,通过从输出和真实的正常光照图像中随机裁剪局部小块,并学习区分它们是真实的(与真实图像)还是虚假的(与增强的输出)。这种全局-局部结构保证了增强图像的所有局部区域看起来都像真实的自然光,这对于避免局部过曝或低曝至关重要,我们的实验稍后将揭示这一点。   
    此外,对于全局判别器,我们利用最近提出的相对论判别器结构[35]估计真实数据比虚假数据更真实的概率,并指导生成器合成比真实图像更真实的伪图像。相对论判别器的标准函数是:

其中C表示判别器网络,xr和xf分别表示真实数据和虚假数据的分布,σ表示sigmoid激活函数。我们稍微修改了相对论判别器,用最小二乘GAN(LSGAN)损失代替了sigmoid函数最后全局判别器D和生成器G的损失函数为

  • 对于局部判别器,我们每次从输出图像和真实图像中随机裁剪5个patch。这里我们采用原LSGAN作为对抗性损失,如下:

4.2.Self Feature reserving Loss-自感知损失Loss
  • 为了限制感知相似性,Johnson等人[37]提出了感知损失的概念,采用一种预训练的VGG对图像之间的特征空间距离进行建模,这种方法被广泛应用于许多低层次的视觉任务中[27,28]。通常的做法是在输出图像及其真实图像之间限制提取的特征距离。

  • 在我们的非配对设置中,我们建议改为限制输入的低光与其增强的正常光输出之间的VGG特征距离。这是基于我们的经验观察,当我们操纵输入像素强度范围时,VGG模型的分类结果不是很敏感,这与最近另一项研究[38]的结果一致。我们称其为自特征保留损失,是为了强调其自正则化的实用性,使图像内容特征在增强前后保持不变。这与(成对的)图像恢复中感知缺失的典型用法不同,也是由我们的非成对设置激发的。具体地说,自特征保留损失LSFP定义为:

IL表示输入的低光图像,G(IL)表示生成器的增强输出。ϕi,j表示在ImageNet上预先训练的VGG-16模型中提取的特征图,i表示第i个最大池化,j表示第i个最大池化之后的第j个卷积层。Wi,j和Hi,j是提取的特征图的尺寸大小。默认情况下,我们选择i=5,j=1。

  • 对于我们的局部判别器,从输入和输出图像中裁剪出的局部小块也通过类似定义的自特征保留损失L(LocalSFP)进行正则化。此外,我们在VGG特征映射后添加了一个实例归一化层,然后再将其加入到LSFP L和L(LocalSFP)中,以稳定训练。因此,训练EnlightenGAN的总体损失函数为:
4.3. U-Net Generator Guided with SelfRegularized Attention-带有注意力机制的Unet生成器网络
  • U-Net[40]在语义分割、图像恢复和增强[41]方面取得了巨大的成功。U-Net通过从不同的深度层中提取多级特征,保持了丰富的纹理信息,并利用多尺度上下文信息合成了高质量的图像。我们采用U-Net网络作为生成器的骨干。
  • 我们进一步提出了一个易于使用的注意机制的U-Net生成器。直观地说,在空间变化光照条件下的低光图像中,我们总是希望对暗区域的增强大于对亮区域的增强,这样输出的图像既不会过度曝光也不会低曝。我们将输入RGB图像的光照通道I II标准化为[0,1],然后使用1−I(元素差异)作为我们的自正则注意图。然后,我们调整注意图的大小以适应每个特征图,并将其与所有中间特征图以及输出图像相乘。我们强调,我们的注意力图也是一种自我规范的形式,而不是在监督下学习。尽管其简单,注意力引导显示始终如一地改善视觉质量。
  • 我们的注意力引导的U-Net生成器是由8个卷积块实现的。每个块由两个3*3个卷积层组成,然后是LeakyReLu和一个batch normalization层[42]。在上采样阶段,我们将标准反卷积层替换为一个双线性上采样层和一个卷积层,以减轻棋盘图的伪影。EnlightenGAN最终的建结构:
销蚀实验对比:

5.Experiments

5.1.Dataset and Implementation Details
  • 因为EnlightenGAN具有独特的能力,可以用不配对的低光、常光图像进行训练,所以我们能够收集到更大尺度的unpair训练集,涵盖了不同的图像质量和内容。我们从[43,5]和[15,25]中发布的几个数据集中收集了914张低光和1016张普通光图像,而不需要保存任何一对。手动检查选择,去除中等亮度图像。所有这些照片都被转换成PNG格式,并调整到600*400像素。对于测试图像,我们选择了之前作品中使用的标准图像(NPE [19], LIME [21], MEF [44], DICM [45], VV,等)。
  • EnlightenGAN先从头开始训练100次迭代,学习率为1e-4,然后再训练100次迭代,学习率线性衰减为0。我们使用Adam优化器,批大小设置为32。由于单路径GAN的轻量级设计,无需使用循环一致性,因此训练时间比基于循环的方法短得多。整个培训过程需要3个小时的Nvidia 1080Ti gpu。
5.2.Ablation Study
  • 详见4.3销蚀实验对比
5.3.Comparison with State-of-the-Arts
  • 我们将EnlightenGAN的表现与目前最先进的方法进行比较。我们进行了一系列的实验,包括视觉质量比较、人的主观评价和无参考图像质量评估(IQA)。

其余实验结果详见论文
https://paperswithcode.com/paper/enlightengan-deep-light-enhancement-without

6.Conclusion

本文提出了一种新颖、灵活的无监督框架来解决低光增强问题。所提出的EnlightenGAN在没有配对训练数据的情况下,能够很好地进行操作和推广。在各种低光数据集上的实验结果表明,我们的方法在主观和客观指标下都优于多种最先进的方法。此外,我们证明EnlightenGAN可以很容易地适应真实的低噪声微光图像,并产生视觉上令人愉快的增强图像。我们未来的工作将探索如何在一个统一的模型中控制和调整基于用户输入的光增强级别。由于光增强的复杂性,我们也希望将算法与传感器的创新相结合。

7.补充资料

  • 生成对抗网络

https://zhuanlan.zhihu.com/p/33752313

  • Unet

https://blog.csdn.net/Formlsl/article/details/80373200

  • attention机制

https://www.cnblogs.com/USTC-ZCC/p/11147825.html

  • encorder-decorder架构

https://blog.csdn.net/luoganttcc/article/details/106119851

  • 实验代码

https://github.com/TAMU-VITA/EnlightenGAN

本人已跑通本论文代码并已对network和singlemodel以及data部分代码进行研究,实验环境配置较为复杂,有任何问题可以交流,实验代码书写十分规范,适合深入研究理解

  • 1
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值