【论文介绍】
提出了一种全局光照感知和细节保持网络(GLADNet)来增强低照度图像,首先计算低光输入的全局光照估计,然后在估计的引导下调整光照,并使用与原始输入的连接来补充细节。
【题目】:GLADNet: Low-Light Enhancement Network with Global Awareness
【DOI】:10.1109/FG.2018.00118
【会议】:2018 13th IEEE International Conference on Automatic Face Gesture Recognition (FG 2018)
【机构】:Wenjing Wang, Chen Wei, Wenhan Yang, Jiaying Liu(都来自北京大学)
【论文链接】:https://github.com/daooshee/fgworkshop18Gladnet/blob/master/wwj_fg2018.pdf
【代码链接】:https://github.com/weichen582/GLADNet
【工程链接】:https://daooshee.github.io/fgworkshop18Gladnet/
【创新点】
- 先进行全局照明估计,然后利用生成光照的全局先验与原始输入的连接进行细节重组。
- 在原始图像上合成数据对进行训练。
【GLADNet网络结构】
- 全局照明估计:最近邻域插值将输入下采样到特定大小W0×H0,然后放入编码器-解码器网络中进行全局照明预测,以生成光照的全局先验(96x96),最后将其重新缩放到原始分辨率。
- 细节重组:基于全局先验和原始输入图像,采用卷积网络进行细节重建。使用concatenation代替skip-connection将最后一个上采样块的特征图和输入图像结合起来,这样原始信息和光照估计都可以完整保留并传递到下一步。连接层之后是三个带有 ReLU 的卷积层。它将输入图像信息与估计的全局光照信息组合在一起,最终生成具有更好细节的增强结果。
编解码器网络瓶颈层的感受野能够覆盖整个图像。因此,该网络具有对整个照明分布的全局感知。
什么是瓶颈层(bottle-neck layer)?
之所以称之为瓶颈层,是因为长得比较像一个瓶颈:中间比较细,像一个瓶子的颈部。
例如:在ResNet残差网络中,使用1x1卷积升维和降维后得到中间的feature map维度比较小,就称为瓶颈层。
使用1x1卷积主要目的是为了减少参数的数量,从而减少计算量,且在降维之后可以更加有效、直观地进行数据的训练和特征提取。
【损失函数】
训练过程是通过最小化恢复图像 F(X, Θ) 和相应的真实图像 Y 之间的损失来实现的。使用 L1 范数。N是所有训练样本的数量
L1范数尽可能使两图的全局语义特征相同。
L2范数去除增强结果中的噪声和振铃伪影。
【数据集】
在原始图像上合成数据对。从RAISE[12]收集了780个原始图像,其中700个用于生成训练对,80个用于验证。Adobe Photoshop Lightroom为RAW图像调整提供了一系列参数,包括曝光、亮度和对比度。通过将曝光参数E设置为[-5,0],将振动参数V设置为[-100,0],将对比度参数C设置成[-100,0]来合成低光图像。为了防止颜色偏差,将转换为彩色图像对的700个灰度图像对添加到训练数据集。为了在增强之前和之后保持黑色和白色区域相同,添加了五个黑到黑和五个白到白训练对。最后,将所有图像的大小调整为400×600,并转换为便携式网络图形格式。
【实验结果】
与其他方法相比,本文的方法产生了更生动自然的结果。由于GLADNet具有对输入的全局感知并同时调整整个图像,因此可以避免较亮区域的曝光过度和较暗区域的曝光不足。此外,增强后的图像仍然保留了细节,这得益于细节重建步骤。
GLADNet 的主要应用之一是帮助提高其他计算机视觉任务的性能,例如对象检测和识别。
来自MEF数据集的“埃菲尔铁塔”的谷歌云视觉API的结果。在增强之前,谷歌云视觉无法识别埃菲尔铁塔。经过GLADNet增强后,埃菲尔铁塔被识别并用绿色方框标记。
GLADNet 帮助 Google Cloud Vision API 识别该图像中的对象。