EnlightenGAN: Deep Light Enhancement without Paired Supervision

EnlightenGAN是一种无监督的生成对抗网络,专为在无低光/正常光图像对的情况下进行训练而设计,用于弱光图像增强。模型采用全局局部鉴别器结构,结合self-regularized感知损失和注意力机制,有效提升弱光图像的质量,优于现有方法。通过在多种真实世界图像上的实验,验证了EnlightenGAN的通用性和效果。
摘要由CSDN通过智能技术生成

摘要

本文提出了出了一种高效的、无监督的生成对抗网络,称为EnlightenGAN,它可以在不需要低/正态光图像对的情况下进行训练,并被证明在各种真实世界的测试图像上具有很好的通用性。模型使用全局局部鉴别器结构,self-regularized感知损失融合和注意力机制,在弱光图像增强问题上取得了较好的结果,且优于最近的其他方法。
论文地址:EnlightenGAN: Deep Light Enhancement without Paired Supervision

问题的提出

在弱光条件下拍摄的图像对比度低,能见度差,ISO噪声大。使用深度学习的图像恢复和增强方法依赖于损坏的图像和未损的图像进行训练。但获取成对的图像数据集有许多困难,如:

  1. 同时捕获损坏的图像和ground-truth图像较为困难,如在同一地点同一时间获得低光和正常光线的图像。
  2. 合成的损坏图像可能不够逼真,模型泛化能力不好。
  3. 对于弱光的定义,没有唯一或者明确的标注。

作者受无监督图像到图像转换的启发,采用生成对抗网络(GANs)在低光和正常光图像空间之间建立非配对映射,而不依赖于精确配对的图像。这将模型从仅使用合成数据或在受控设置中获取的有限的真实配对数据的训练中解放出来。文章引入了一种轻量级但有效的单路径GAN,名为EnlightenGAN,它没有使用循环一致性,因此训练时间更短。

主要工作

首先提出一种双鉴别器来平衡全局和局部弱光增强。
此外,由于缺乏ground-truth监督,提出了一种self-regularized perceptual loss来约束弱光输入图像与其增强图像之间的特征距离,并与对抗性损失一起局部和全局采用该self-regularized perceptual loss来训练EnlightenGAN。
还提出利用低光输入的照度信息作为深度特征每一层的自规则化注意图来规范无监督学习。
由于无监督设置,文章证明了EnlightenGAN可以很容易的被用来增强来自不同域的图像。

方法

文章提出的方法采用注意力引导的U网作为生成器,使用双鉴别器来引导全局和局部信息。也使用自特征保留损失来指导训练过程,并保持纹理和结构。

全局局部鉴别器

采用对抗性损失来最小化实际光和输出正态光分布之间的距离。然而,如果输入图像有一些局部区域需要进行不同于其他部分的增强,例如整个黑暗背景中的一小块明亮区域,单靠全局图像鉴别器往往无法提供所需的自适应能力。

为了自适应地增强局部区域,同时改善全局的光照,文章提出了一种新的全局-局部鉴别器结构,两者都使用PatchGAN进行真假鉴别。除了图像级的全局鉴别器,文章还添加了一个局部鉴别器,从输出和真实正态光图像中随机提取局部patch,并学习区分它们是真实的还是假的。这种全局-局部结构确保了增强图像的所有局部斑块看起来都像真实的正常光,这是避免局部曝光过度或曝光不足的关键。

此外,对于全局鉴别器,文章利用最近提出的相对论鉴别器结构来估计真实数据比假数据更真实的概率,并指导生成器合成比真实数据更真实的假图像。相对鉴别器的函数为:
Alt
式中,C为鉴别器网络, x r x_r xr x f x_f xf分别从真分布和假分布中采样,σ表示sigmoid函数。文章用最小二乘GAN (LSGAN损失代替了s型函数。最后,全局鉴别器D和生成器G的损失函数为:
Alt
对于局部鉴别器,每次从输出图像和真实图像中随机裁剪5个patch。文章采用原LSGAN作为对抗性损失,如下:
Alt

为了约束感知相似性,Johnson等人提出了感知损失,采用预先训练好的VGG来建模图像之间的特征空间距离,该方法被广泛应用于许多低级视觉任务。通常的做法是限制提取的特征与输出图像的ground truth之间的距离。
在文章的非配对设置中,文章建议限制输入弱光和增强的正常光输出之间的VGG特征距离。文章称其为self-regularized perceptual loss,以强调其自正则化的效用,在增强前后保留图像内容特征。具体而言,self-regularized perceptual loss 定义为:
Alt
式中, I L I^L IL为输入弱光图像, G ( I L ) G({I^{L}}) G(IL)为发生器增强输出。 ϕ i , j \phi_{i,j} ϕi,j表示从ImageNet上预训练的VGG16模型中提取的特征图。i表示第i个最大池化层,j表示第i个最大池化层之后的第j个卷积层。 W i , j W_{i,j} Wi,j H i , j H_{i,j} Hi,j为提取的特征图的维数。默认情况下,选择i = 5 j = 1。
对于局部鉴别器,从输入和输出图像中裁剪出的局部小块也通过相似定义的自特征保持损失 L L o c a l S F P L_{Local}^{SFP} LLocalSFP进行正则化。此外,在VGG特征图之后添加实例归一化层,然后再输入 L S F P L^{SFP} LSFP L L o c a l S F P L_{Local}^{SFP} LLocalSFP,以稳定训练。EnlightenGAN的整体损失函数为:
Alt

U-Net Generator Guided with Self-Regularized Attention

文章采用U-Net作为我们的生成器骨干网络。文章为U-Net提出了一个易于使用的注意机制网络。直观地说,在光线空间变化的弱光图像中,我们总是希望增强暗区而不是亮区,这样输出的图像既不会曝光过度也不会曝光不足。文章取输入RGB图像的光照通道I,将其归一化为[0,1],然后使用1到I(元素间的差异)作为我们的自正则化注意力图。然后调整注意力地图的大小以适应每个特征地图,并将其与所有中间特征地图以及输出图像相乘。
模型的注意力引导U-Net生成器是由8卷积块实现的。每个块由两个3×3的卷积层组成,其次是LeakyReLu和批处理归一层。在上采样阶段,将标准反卷积层替换为一个双线性上采样层加上一个卷积层,以减少棋盘效应。最终的EnlightenGAN架构如图1所示。
Alt

图1

实验

数据集

由于EnlightenGAN具有独特的低/正常光未配对训练能力,可以收集更大范围的未配对训练集,涵盖不同的图像质量和内容。文章收集了914张弱光图像和1016张普通光图像,不需要保留任何一对,手动检查和选择以去除中等亮度的图像。所有这些照片都转换为PNG格式,并调整为600×400像素。对于测试图像,选择之前工作中使用的标准图像(NPE [19], LIME [21], MEF [44], DICM [45], VV, 2等)。

EnlightenGAN首先从零开始训练100 epoch,学习速率为1e-4,其次是单路GAN的轻量级设计,没有使用循环一致性,训练时间比基于循环的方法短得多。整个训练过程在3个Nvidia 1080Ti gpu上花费3个小时。100个epoch与学习速率线性衰减到0使用Adam优化器,批处理大小设置为32。

视觉质量对比

如图2所示,第一列是原始的弱光图像,第二列到第五列是用非配对训练集训练的RetinexNet、RetinexNet、SRIE、LIME和NPE增强的图像。最后一栏显示的结果产生的EnlightenGAN。
LIME容易产生过度曝光伪影,使结果失真、刺眼,并丢失部分信息。SRIE和NPE的结果通常比其他的要暗一些。CycleGAN和RetinexNet在亮度和自然度方面都不能令人满意的视觉结果。相比之下,EnlightenGAN不仅成功地学会了增强暗区,还保留了纹理细节,避免了过度曝光的伪影。
Alt

图2

主观评价

文章从测试集中随机选取23张图像,每一张图像首先采用5种增强方法(LIME, RetinexNet, NPE, SRIE,和iEnlightenGAN)。然后让9个受试者以两两比较的方式独立地比较这5个输出。具体地说,就是每一次向受试者展示从五个输出中随机抽取的一对图像,并要求受试者评估哪一张的质量更好。
指导受试者考虑:
1)图像是否含有可见噪声;
2)图像是否存在曝光过度或曝光不足的伪影;
3)图像是否显示不真实的颜色或纹理扭曲。接下来,文章拟合一个Bradley-Terry模型来估计数字主观评分,以便使用与之前作品完全相同的方法对五种方法进行排序。结果,每一种方法在该图像上的等级为1-5。对所有23张图像重复上述操作。
Alt

图3

图3显示了5个直方图,每个直方图描述了一个方法在23张图像上接收到的秩分布。例如,EnlightGAN已经排名第一(即(主观评分最高)在23张图片中有10张,第二张是8张,第三张是5张。通过对五幅直方图的比较,可以看出,总体来说,阿德启发gan得到的结果是最受人类受试者喜爱的,在23幅图像中平均排名为1.78。视黄醇和石灰得分不高,因为造成许多过度曝光,有时放大噪音。

无参考图像质量评估

文章采用自然图像质量评价器(Natural Image Quality Evaluator, NIQE),一种著名的无参考图像质量评价方法来评价真实图像的恢复,而不考虑ground-truth情况,提供定量的比较。表1报告了之前作品使用的五个公开图像集(MEF、NPE、LIME、VV和DICM)的NIQE结果:NIQE值越低,说明视觉质量越好。
Alt

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值