Learning Multi-Scale Photo Exposure Correction阅读札记
论文发表于2021年的CVPR。
Abstract
本文目标:
同时校正过曝光和欠曝光的问题。
贡献:
(1)提出一个由粗到细的深度学习方法,用于校正sRGB图像中存在的过曝光和欠曝光错误:将曝光校正问题表述为颜色增强和细节增强这两个子问题,使用深度神经网络(DNN)模型,以端到端方式进行训练,首先校正全局颜色信息,然后再改善图像细节。
(2)提出一个新的数据集,其中包含24000多张从raw-RGB到sRGB的图像,这些图像具有不同的曝光设置,并且每张图像有对应的适当曝光的参考图像
g
t
gt
gt。
Dataset
本文数据集由MIT-Adobe FiveK数据集渲染,使用相对EV为 -1.5,-1,+0,+1 和 +1.5 去渲染每个raw-RGB图像,模拟欠曝光、正常曝光和过曝光图像。使用专业摄影师手动修正图像作为
g
t
gt
gt参考图像,而不是使用渲染的相对EV为+0的图像(因为MIT-Adobe FiveK数据集中原始图像中包含一定曝光错误)。最后将渲染后的图像转换为标准的8位sRGB颜色空间编码。
数据集分为三个集合:(i)包含有17675个图像的训练集,(ii)包含有750个图像的验证集,(iii)包含有5905个图像的测试集。训练、验证、测试图像不共享任何共同的图像。
Method
输入一个8位的sRGB图像 I I I,使用拉普拉斯金字塔将 I I I进行多分辨率分解,再按顺序处理多分辨率图像来校正颜色和细节错误,输出一个曝光错误比 I I I少的校正图像 Y Y Y。
1、由粗到细的曝光校正
令表示
I
I
I的
n
n
n层拉普拉斯金字塔,
X
(
l
)
X_{(l) }
X(l)表示
X
X
X的第
l
l
l层。金字塔的最后一层
X
(
n
)
X_{(n)}
X(n)存储
I
I
I的低频信息——全局颜色信息;第一层
X
(
1
)
X_{(1)}
X(1)到倒数第二层
X
(
n
−
1
)
X_{(n-1)}
X(n−1)存储
I
I
I的高频信息——由粗到细的细节信息。
上图的(A)和(B)分别显示了过曝光图像和对应的良好曝光图像。如图(C)所示,在拉普拉斯金字塔中,仅替换低频层(即全局颜色信息)即可获得显著的曝光校正。如图(D)所示,可以通过校正拉普拉斯金字塔的每一层,以顺序的方式增强细节来改进最终图像。然而在实际处理过程中是无法获得图(B)中的正确曝光图像,因此需要预测在拉普拉斯金字塔每一层损失的颜色和细节信息。
2、由粗到细的网络
本文提出的模型包含
n
n
n个子网络,依次处理输入图像
I
I
I的
n
n
n层拉普拉斯金字塔,其中每一个子网络都是一个类U-Net架构,具有不固定的权重。根据每个子问题(即全局颜色校正和细节增强)对最终结果的影响程度,给相应的子网络分配不同的权重。网络框架图如下:
(1)最大的(按权重计算)子网络(黄色部分所示)用于处理
I
I
I的全局颜色信息,即对低频层
X
(
n
)
X_{(n)}
X(n)处理,生成一个放大后的图片
Y
(
n
)
Y_{(n)}
Y(n),其中放大过程使用具有可训练权重的跨步转置卷积将子网络的输出放大两倍。
(2)添加第一个中频层
X
(
n
−
1
)
X_{(n-1)}
X(n−1)到
Y
(
n
)
Y_{(n)}
Y(n),由模型中第二个子网络处理。这个子网络增强了当前层的相应细节,并生成了一个残差层,然后添加到
Y
(
n
)
+
X
(
n
−
1
)
Y_{(n)}+ X_{(n-1)}
Y(n)+X(n−1)中以重建图像
Y
(
n
−
1
)
Y_{(n-1)}
Y(n−1),这相当于对应的高斯金字塔
n
–
1
n – 1
n–1层。
…
(n)细化上采样过程一直进行到产生最终输出图像
Y
Y
Y。
3、损失
对模型进行端到端训练,以最小化以下损失函数:
重构损失 L r e c L_{rec} Lrec
在重构的参考图像和适当曝光的参考图像之间使用
L
1
L_1
L1损失函数:
h
,
w
h,w
h,w:训练图像的高度和宽度
p
p
p:校正后图像
Y
Y
Y和适当曝光的参考图像
T
T
T中每个像素的索引
金字塔损失 L p y r L_{pyr} Lpyr
为了引导每个子网络遵循拉普拉斯金字塔重建过程,于是在金字塔的每一层引入专用损失:
T
(
l
)
T_{(l)}
T(l):参考图像
T
T
T两倍上采样后的高斯金字塔的第
l
l
l层(使用一个简单的插值过程进行上采样操作)
h
l
,
w
l
h_l, w_l
hl,wl:训练图像拉普拉斯金字塔第
l
l
l层高度和宽度的两倍
p
p
p:校正后图像在第
l
l
l层
Y
(
l
)
Y_{(l)}
Y(l)和适当曝光参考图像的第
l
l
l层
T
(
l
)
T_{(l)}
T(l)的每个像素的索引
金字塔损失不仅对每个子网络的任务给出原则性的解释,而且与仅使用重建损失的训练相比,视觉伪影更少,如下图所示:
对抗损失 L a d v L_{adv} Ladv
为了从真实感和吸引力方面感知增强校正后图像输出的重建,还考虑了对抗损失作为正则化器:
S
S
S:sigmoid函数
D
D
D:与主网络一起训练的鉴别器DNN。
⭐受前人工作启发,最初训练没有对抗损失项
L
a
d
v
L_{adv}
Ladv以加速主网络的收敛,在收敛时再添加对抗损失项
L
a
d
v
L_{adv}
Ladv微调网络以增强初始结果。
Experiment
1、定量评估
评估指标:
(i)峰值信噪比(PSNR)
(ii)结构相似性指数测度(SSIM)
(iii)感知指数(PI)
PI定义为:
Ma,NIQE:无参考图像质量指标。
与前人方法进行比较:
将本文方法训练出的模型来测试其他的数据集,来评估方法的泛化能力:
2、定性评估
对不同过曝光和欠曝光图像的结果:
对Flickr上的图像的结果:
3、限制
本文方法在语义信息不足的区域产生的结果不理想,如图所示:
当输入图像部分区域完全饱和,网络无法约束改区域的颜色信息
当输入图像有极端黑暗区域时,本文方法可能会引入噪声。