EnlightenGAN: Deep Light Enhancement without Paired Supervision

EnlightenGAN: Deep Light Enhancement without Paired Supervision

  • 论文链接:https://arxiv.org/abs/1906.06972v2
  • 期刊/会议:TIP 2020
  • 是否有code: Code

关键词

暗光图像增强,卖方法,无监督(半监督?);

问题简述&个人评价

Motiviation:这篇paper的卖点相对简单,就是认为配对的暗光-正常光数据非常难以获取(其实与其他任务来说来说并不困难…),因此希望在暗光增强领域引入无(半)监督的思路,使用非配对的暗光-正常光数据来训练GAN,完成暗光图像的增强。

Abstract:为了无(半)监督的暗光图像增强,本文提出一个基于GAN网络的方法——EnlightenGAN。引入无(半)监督的优势有两点:

  • 对于数据的要求大大降低;
  • 一般认为,无监督的方法,泛化性会优于监督类的方法。在此基础上,如果能用少量的目标域的数据来进行finetune,效果将会更上一层楼。

简而言之,这篇文章的技术创新点有三点:

1.相对GAN的引入:

在设计判别器时,使用了两种判别器:global discriminatorlocal discriminator。 其中global discriminator与正常的判别器基本一致,负责判别生成器生成的整张图和真实图片哪个更像真实的图片。但作者发现,只使用global discriminator会导致生成的图片有严重给的色偏问题。针对这个问题,作者提出使用local discriminator可以有效地改善。具体做法是对生成的图像随机切5哥patch出来,然后不配对的真实图像也随即切出5个同等大小的patch,再用一个判别器挨个进行判别。大致流程如下图右侧所示:
在这里插入图片描述
值得一提的是,作者使用的GAN是相对平均GAN(Relativistic Average GAN, RaGAN),主要是RaGAN相比普通的GAN所需要的数据量更少,且生成结果的质量也更高。关于RaGAN可以参考这篇知乎专栏或者百度其他博客进行更加详细的了解。

2.自正则化感知损失函数(self-regularized perceptual loss function):

暗光图像增强任务要求增强前后的图像结构应该依然保持相似,然而GAN却不一定能保证这一点(想想GAN即使输入无意义的噪声,也可以输出有意义图片的能力)。因此,必须通过损失函数来限制对GAN生成的内容进行限制。限制方法就是计算增强前暗光图像 I L I^{L} IL 与 GAN生成的增强后图像 G ( I L ) G(I^{L}) G(IL) 之间的"感知损失":
S F P ( I L ) = 1 W i , j H i , j ∑ x = 1 W i , j ∑ y = 1 H i , j ( ϕ i , j ( I L ) − ϕ i , j ( G ( I L ) ) ) 2 , (1) \mathcal{SFP}(I^{L})=\frac{1}{W_{i,j}H_{i,j}}\sum_{x=1}^{W_{i,j}}\sum_{y=1}^{H_{i,j}}(\phi_{i,j}(I^{L})-\phi_{i,j}(G(I^{L})))^2, \tag{1} SFP(IL)=Wi,jHi,j1x=1Wi,jy=1Hi,j(ϕi,j(IL)ϕi,j(G(IL)))2,(1)
式中 ϕ i , j \phi_{i,j} ϕi,j代表着从预训练好的VGG16网络中提取而出的特征图。 i = 5 , j = 1 i=5,j=1 i=5,j=1 分别代表该特征图是经过VGG16网络第 i i i 个最大池化和第 j j j 个卷积层所提取出来的, W i , j H i , j W_{i,j}H_{i,j} Wi,jHi,j 代表该特征图的长和宽。

3. 亮度注意力机制:

作者认为,暗光图片一般都是亮度不均匀的,意思就虽然大部分区域都很暗,但还是有一些亮的地方。在进行增强时,我们肯定希望本来暗的区域的亮度被更大力度的增强,以改善under-exposure的问题;而相对亮的区域的亮度在增强时,最好能保持克制,防止增强后的图片出现over-exposure问题。既然增强的力度与该区域的亮度有关,那作者干脆就将暗光图像 I L I^{L} IL 的亮度通道 I I I (大概类似于YUV中的Y)作为一个辅助的Attention Map M \mathcal{M} M I L I^{L} IL 一起送到网络之中,具体来说
M = 1 − n o r m a l i z e ( I ) , (2) \mathcal{M}=1-normalize(I), \tag{2} M=1normalize(I),(2)
具体流程可以看上图的左侧部分。

实验结果

与其他的暗光增强方法之间的主观对比

这真是没什么可解释的了,直接看下图就可以了
在这里插入图片描述

Component Analysis

在这里插入图片描述

User Study

其他的一些实验都比较常规(包括无参考图像质量评价、在真实数据上的泛化性等),这里就不放了。不过本文的User Study做的看起来还挺科学的,值得学习一下:
作者准备了23张图片,每张图片都分别用5种方法进行了增强。之后安排观察者来观察这些结果,观察者每次观察,都会从5个结果中随机挑选出两个,让观察者从以下三个方面考虑哪个结果是质量更好的:

  • 是否增强后的图片有可见的噪声;
  • 是否增强后的图片存在欠曝光或者过曝光的Artifacts;
  • 是否曾倩过后的图片存在颜色或者纹理方面的扭曲;

这个时候,对于每张待增强的暗光图片,我们得到的结果就是5种方法互有胜负的结果(十分像竞技体育各个参赛队伍之间的“胜负”结果)。然后使用Bradley-Terry模型来估计出这五个对比方法的“得分”,再根据这个得分来对这5种方法从高到低进行排序(“1”代表最好,“5”代表最差)。每种方法对每张图片都会有一个1~5的排序,把23张图片的结果综合起来,就能得到类似于下图的结果:
在这里插入图片描述
最后比较的时候,可以比较每种方法在这23张图片上的平均排序值,排序的数字越低则代表这种方法的效果越好。

总结

这篇paper有其价值,但我认为其质量相对来说不算高。
优点

  • 利用GAN,首次将无(半)监督引入到暗光增强领域;
  • 针对暗光增强任务自身的特点,设计出了SFP和亮度Attention (相较之下,前者比较“显然”,后者可能更有亮点,更加贴合暗光增强任务);

缺点

  • 最大的问题就是通读下来始终摆脱不掉 GAN“换皮”文章 的嫌疑。关键在于在提到GAN相关的设计时,没有体现出对于暗光增强这个任务有自己的思考(global/local 判别器我觉得算不上”独特“的思考,类似的技术在其他领域有应用)。

参考文献

本文基本均为原创

  • 5
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值