Low-Light Image Enhancement via a Deep Hybrid Network阅读札记
论文发表于2019年的TIP。
1 Abstract
解决问题:
提高低照度图像的可见性
本文方法:
本文提出一种基于混合神经网络的自动低光图像增强方法,通过以下四个关键策略实现:
1)通过编码器—解码器结构组成的 内容流实现输入图像亮化,其中编码器捕获低光输入图像的语义信息,解码器使用从编码器学到的特征来估计大部分场景。
2)提出一种 边缘流网络,通过结合空间变体RNN和边缘感知特征图预测准确的图像结构,来恢复内容流网络丢失的图像细节。
3)通过在训练数据种加入少量高斯噪声缓解增强细节对比度使得噪声更加明显的问题。
4)结合MSE损失、感知损失和对抗损失提高增强结构的视觉质量。
2 Method
网络框架图
顶部的内容流初步预测RGB输入图像的全局特征,底部的边缘流在RGB和梯度空间共同作用,提取图像的边缘细节特征,最后联合Content feature和Edge feature生成最终增强图像。
2.1 内容流
基于残差编码器-解码器架构来实现内容预测,具体设计如下:
1)编码器中前两个卷积层被改为膨胀卷积以扩大感受野(见网络架构图Content steam的粉色部分)
2)解码器中,将边缘流中的相应特征层连接到内容流以获得更多细节(见网络架构图Content steam和Edge steam中间的虚线部分)
2.2 边缘流
提出了一种改进的空间变体RNN模型:
h
[
k
]
,
h
[
k
−
1
]
h[k],h[k-1]
h[k],h[k−1]:位置
k
k
k处和
k
−
1
k-1
k−1处的边缘信息
x
[
k
]
x[k]
x[k]:输入图像位置
k
k
k处的像素值
p
[
k
]
,
g
[
k
]
p[k],g[k]
p[k],g[k]:平衡
x
[
k
]
x[k]
x[k]和
h
[
k
]
h[k]
h[k]的权重
从上式可知,
h
[
k
]
h[k]
h[k]由输入图像位置
k
k
k处的信息
x
[
k
]
x[k]
x[k]和上一个位置的边缘信息
h
[
k
−
1
]
h[k-1]
h[k−1]加权得到,
x
[
k
]
x[k]
x[k]和
h
[
k
−
1
]
h[k-1]
h[k−1]通过权重
p
[
k
]
p[k]
p[k]和
g
[
k
]
g[k]
g[k]平衡(当
p
[
k
]
p[k]
p[k]接近于零时,它会切断
h
[
k
−
1
]
h[k-1]
h[k−1]到
h
[
k
]
h[k]
h[k]的传播,因此只考虑当前图像像素信息,从而保留边缘信息。当
p
[
k
]
p[k]
p[k]值较大时,保持从
h
[
k
−
1
]
h[k-1]
h[k−1]到
h
[
k
]
h[k]
h[k]的传播,因此边缘特征往往在非边缘位置被平滑)。一个单向RNN示例如下图所示:
紫色网络:对应于网络架构图Edge steam的上半部分,采用带有跳跃连接的编码器—解码器架构来计算像素权重
g
g
g和
p
p
p。
multi-scale feature x:对应于网络架构图Edge steam的下半部分,将输入图像依次使用下卷积层(DownSample+Conv+ReLU)处理到原图的1/2,1/4,1/8,然后将它们Resize到原始大小并将它们与原始图像连接在一起得到多尺度特征
x
x
x。
淡蓝色网络:一个定向空间变体RNN,以从左到右(此外还有右→左,上→下,下→上)为例,采用生成的权重图
g
g
g和
p
p
p以及多尺度特征
x
x
x,以重复生成隐藏状态,即边缘特征(对于每个特定方向,输入图像被视为一组1D序列)。
借助多尺度特征
x
x
x和学习的权重图
g
g
g和
p
p
p,RNN从四个不同方向扫描图像,从而生成四个隐藏的激活图来学习不同的边缘相关特征,最后通过根据每个位置的最大响应选择最佳方向来整合这些特征(这是通过节点方式的最大池化来执行的)。
最后将学习到的内容特征和边缘特征融合在一起,再加两个额外的卷积层,得到最终增强图像。
2.3 损失函数
2.3.1 MSE损失
增强图像
G
(
R
)
G(R)
G(R)与ground truth图像
I
I
I的欧几里得距离作为MSE损失:
N
N
N:图像中像素个数
2.3.2 感知损失
增强图像
G
(
R
)
G(R)
G(R) 与ground truth图像
I
I
I经过预先训练的16层VGG网络提取到的特征图的欧几里得距离作为感知损失:
ϕ
j
ϕ_j
ϕj:VGG16网络通过第j次卷积得到的特征图
C
j
,
W
j
,
H
j
C_j,W_j,H_j
Cj,Wj,Hj:特征图的数量、高度和宽度
2.3.3 对抗损失
将本文图像增强的网络视为一个生成器,再引入一个鉴别器共同构成一个对抗网络,对抗损失为:
本文构建了如表 I 所示的判别器
D
D
D:由10个卷积层组成,每个卷积层后跟一个LeakyReLU激活函数(第1、3、5、7、9卷积层的核大小为5×5,步长为2;其他卷积层的大小为3×3,步长为1),对最后一个卷积层的输出使用Sigmoid激活函数,并产生输入图像与ground truth相同的概率。
2.3.4 总损失
总损失为MSE损失、感知损失和对抗性损失的加权和:
λ
p
,
λ
a
λ_p,λ_a
λp,λa:平衡权重(本文设置为
λ
p
=
0.05
λ_p=0.05
λp=0.05 ,
λ
a
=
1
e
−
3
λ_a= 1e^{-3}
λa=1e−3)
3 Experiment
3.1 训练数据
从MIT-AdobeFivek数据集中仔细选择了336个(low-light,ground truth)的图像对,并使用旋转、翻转、裁剪、噪声和小程度的伽玛校正(
γ
∈
(
2
,
4
)
γ∈(2,4)
γ∈(2,4))来进行数据增广,下图展示了部分示例:
3.2 定量结果
在两个数据集上定量评估最先进的图像增强方法以及本文算法。
3.2.1 人工变暗的图像
上图(a)是将(g)进行
γ
=
3
γ=3
γ=3的伽马校正和添加
1
%
1\%
1%的高斯噪声形成的低照度图像。(b)~(f)依次是基于Retinex的WVM、LIME,基于CNN的HDRNet、DSLR-Q和本文方法增强结果图。
上表为五种方法增强结果的PSNR和SSIM(PSNR和SSIM值越大表示图像质量越好)。
3.2.2 DPED数据集
3.3 定性结果
4 Analysis and Discussions
4.1 损失函数的比较
下图显示了本文网络分别用
L
m
s
e
L_{mse}
Lmse、
L
m
s
e
+
L
p
e
r
L_{mse}+L_{per}
Lmse+Lper、
L
m
s
e
+
L
a
d
v
L_{mse}+L_{adv}
Lmse+Ladv和
L
t
o
t
a
l
L_{total}
Ltotal训练的结果之间的视觉比较:
4.2 边缘流的有效性