摘要
在捕获图像时缺少附近的光源会降低捕获图像的可见度和质量,使计算机视觉任务变得困难。提出了一种基于卷积神经网络的颜色注意网络(CWAN)用于微光图像增强。CWAN在观看暗图像时受到人类视觉系统的激励,在微光图像和增强图像之间学习端到端映射,同时在微光图像中搜索任何有用的颜色线索,以帮助颜色增强过程。一旦识别出这些区域,CWAN的注意力将主要集中在合成这些局部区域以及全局图像上。在具有挑战性的数据集上进行的定量和定性实验表明,与最先进的方法相比,我们的方法具有优势。
贡献
1、提出了一种新的基于颜色的LLIE注意网络(CWAN)。CWAN与增强颜色分量分开地增强图像的亮度。通过这样做,我们简化了LLIE问题并达到了最先进的水平。
2、提出了一种利用颜色频率图训练
C
W
A
N
A
B
CWAN_{AB}
CWANAB的有监督注意机制。根据图像中的颜色频率,选择暗图像中希望连续增强的关键局部颜色点。从本质上讲,学习这些选定的颜色是引起网络关注的一个很好的起点。
提出的方法
基于颜色的注意力模型通过LAB颜色空间将低光RGB图像分解为亮度和颜色分量。其动机是简化具有挑战性的LLIE过程,并允许颜色信息驱动
C
W
A
N
A
B
CWAN_{AB}
CWANAB的注意力,而
C
W
A
N
L
CWAN_L
CWANL专注于同时增强图像亮度和去噪。亮度和颜色分量可以分别增强,它们的融合产生最终的增强图像。从概念上讲,分别增强这两个组件比同时执行两个任务更容易。
问题表述
给定一幅微光图像,其亮度图像
X
L
∈
R
H
×
W
X_L\in R^{H\times W}
XL∈RH×W被传入
CWAN
L
\textrm{CWAN}_L
CWANL,颜色分量被传入
CWAN
A
B
\textrm{CWAN}_{AB}
CWANAB。分别输出增强的亮度图像
X
^
L
\hat X_L
X^L和
X
^
A
B
\hat X_{AB}
X^AB,以及两个中间输出颜色注意图
M
^
\hat M
M^和稀疏注意图
P
^
\hat P
P^。我们的目标是训练
CWAN
L
\textrm{CWAN}_{L}
CWANL,表示为
F
L
(
X
L
;
θ
L
)
\mathscr{F}_{L}(\textrm{X}_{L};\theta_{L})
FL(XL;θL),从低亮度图像到增强亮度图像的映射。同样训练
CWAN
A
B
\textrm{CWAN}_{AB}
CWANAB,表示为
F
A
B
(
X
A
B
;
θ
A
B
)
\mathscr{F}_{AB}(\textrm{X}_{AB};\theta_{AB})
FAB(XAB;θAB)。因此,将LLIE问题表示为:
θ
L
∗
=
a
r
g
m
i
n
θ
L
E
X
L
,
Y
L
,
D
L
[
L
L
(
F
L
)
,
Y
L
]
(1)
\theta_L^*=\underset{\theta_L}{argmin}E_{X_L,Y_L,\mathscr{D}_L}[\mathscr{L}_L(\mathscr{F}_L),Y_L]\tag{1}
θL∗=θLargminEXL,YL,DL[LL(FL),YL](1)
θ
A
B
∗
=
a
r
g
m
i
n
θ
A
B
E
X
A
B
,
Y
A
B
,
P
,
D
A
B
[
L
A
B
(
F
A
B
)
,
Y
A
B
,
P
]
(2)
\theta_{AB}^*=\underset{\theta_{AB}}{argmin}E_{X_{AB},Y_{AB},P,\mathscr{D}_{AB}}[\mathscr{L}_{AB}(\mathscr{F}_{AB}),Y_{AB},P]\tag{2}
θAB∗=θABargminEXAB,YAB,P,DAB[LAB(FAB),YAB,P](2)
其中
D
\mathscr{D}
D表示训练数据集,
L
\mathscr{L}
L表示损失函数,
Y
L
Y_L
YL和
Y
A
B
Y_{AB}
YAB表示真实亮度和颜色分量,
P
P
P是用于指导
CWAN
A
B
\textrm{CWAN}_{AB}
CWANAB的真实图像关注点的稀疏集合。如上图所示,
CWAN
A
B
\textrm{CWAN}_{AB}
CWANAB首先使用注意图生成器
F
M
\mathscr{F}_M
FM估计注意图
M
^
\hat M
M^,从而帮助学习
P
^
\hat P
P^,然后对方程进行优化。在公式(2)之前,需要对
F
M
\mathscr{F}_M
FM进行预训练生成
M
^
\hat M
M^,其公式如下:
θ
M
∗
=
a
r
g
m
i
n
θ
M
E
X
A
B
,
M
,
D
A
B
[
L
M
(
F
M
)
,
M
]
(3)
\theta_M^*=\underset{\theta_M}{argmin}E_{X_{AB},M,\mathscr{D}_{AB}}[\mathscr{L}_M(\mathscr{F}_M),M]\tag{3}
θM∗=θMargminEXAB,M,DAB[LM(FM),M](3)
其中
M
M
M是真实注意图。注意图和关注点服务于不同目的,前者帮助识别与前景颜色相关联的局部区域,而后者指定局部区域内的稀疏点。
网络架构
WAN利用两个完全卷积网络(FCN),使得两个FCN都由特征提取卷积层( f e x t f_{ext} fext)、中间的几个卷积块和最终特征重构卷积层( f r e c f_{rec} frec)组成。为了减轻训练难度,我们使用全局跳跃连接而不是直接映射来学习残差。所有块都具有相同数量的卷积层和ReLU层。这里,我们定义了两种类型的块,CWAN L _L L中使用的存储块和CWAN A B _{AB} AB中使用的前向块,如下所述。
CWAN L _L L结构
CWAN L _L L由一系列存储块组成。这些块取自[31]中的图像恢复工作,并成功地用于图像去噪、超分辨率和JPEG去块。我们建议读者参考[31],以获得关于内存块的更详细的解释。通常,如图所示,存储器块利用块内的本地短跳过连接来表示短期存储器,以及从先前块发起的长跳过连接来表示长期存储器。短期和长期存储器帮助CWAN L _L L实现存储器块内和存储器块之间的小的和大的亮度增强。
CWAN A B _{AB} AB结构
在CWAN
L
_L
L中,所有的转换层都有相同数量和大小的滤光片,使长和短跳跃连接成为可能。相比之下,CWAN
A
B
_{AB}
AB不使用短跳过连接和长跳过连接。相反,在每个块中,中间卷积层是具有1×1滤波器的非线性激活。这项技术已成功地应用于超分辨率。
该网络由两部分组成,第一部分
F
M
\mathscr{F}_M
FM将
X
A
B
X_{AB}
XAB作为输入以生成注意图
M
^
\hat M
M^;第二部分将
X
A
B
X_{AB}
XAB和
M
^
\hat M
M^一起构成的四通道输入以增强颜色。第一部分的目标是在内部估计,在图像的兴趣点中具有高活跃度的
M
^
\hat M
M^,以便在第二部分的增强过程中引导局部区域。由于
X
A
B
X_{AB}
XAB具有两个颜色通道,因此估计
M
^
\hat M
M^也是双通道注意图,并且注意力针对每个空间坐标上的每个通道。为了监督
F
M
\mathscr{F}_M
FM学习,建议使用彩色频率图像来生成真实注意图
M
M
M,如公式(3)中描述的那样。在CWAN
A
B
_{AB}
AB的第二部分学习了从堆叠的
X
A
B
X_{AB}
XAB和
M
^
\hat M
M^到增强型
X
^
A
B
\hat X_{AB}
X^AB以及稀疏关注颜色的
P
^
\hat P
P^映射。真实关注点
P
P
P是通过从
M
M
M中选择一组非零的前景色点来生成的,
M
M
M和
P
P
P在颜色方面的注意力机制中扮演了重要的角色。
注意力图和关注点
上图中,(a)表示输入图像,(b)表示颜色频率图像
F
F
F,© 表示注意力图
M
M
M,(d)表示注意力点
P
P
P.
频率图像表征与频率信息一起的空间分布。给定一个图像X,我们可以计算它的色频图像F,其中F等于图像X中RGB色X(x,y)出现的次数。
获取彩色频率图操作如下。首先,我们对F应用阈值
τ
\tau
τ以消除特定的不需要的频率。例如,上图顶部图像中的白色背景在F中具有非常高的频率,而X的一些部分在F中具有非常低的频率,例如,噪声像素或玩具的眼睛。通过
τ
l
\tau _l
τl<F<
τ
u
\tau _u
τu分割F,我们强调了对前景颜色的关注,并消除了主色频率和次要噪声区域。这将产生所需颜色频率的二进制掩码,由
F
‾
\overline{F}
F:
F
‾
(
x
,
y
)
=
{
1
,
if
τ
l
<
F
(
x
,
y
)
<
τ
u
0
,
otherwise
(4)
\overline{F}(x,y)=\begin{cases}1,\text{if }\tau_l<F(x,y)<\tau_u\\0,\text{otherwise}\end{cases}\tag{4}
F(x,y)={1,if τl<F(x,y)<τu0,otherwise(4)
在计算
F
‾
\overline F
F之后,生成的真实颜色注意图
M
(
:
,
:
,
i
)
=
X
A
B
(
:
,
:
,
i
)
⊙
F
‾
M(:,:,i)=X_{AB}(:,:,i)\odot\overline{F}
M(:,:,i)=XAB(:,:,i)⊙F其中
⊙
\odot
⊙是Hadamard乘积。我们对M进行线性归一化,使其在[0,1]范围内,通常M包含前景色。
在我们的注意机制中,
M
M
M监督
M
^
\hat M
M^的学习,该学习输入到后续的网络中,并引导CWAN
A
B
_{AB}
AB专注于增强粗略局部区域的前景颜色。另一方面,P指导像素级别的颜色增强,识别关键的前景颜色。由于M具有比P多得多的重复前景颜色,因此由P监督可以覆盖大多数颜色,但使用最少的、不重复的约束。
目标函数
为了训练CWAN
L
_L
L,我们使用L1Loss函数来处理合成增强型亮度
X
^
L
\hat X_L
X^L的回归问题。另一方面,训练CWAN
A
B
_{AB}
AB分两个阶段进行。第一阶段训练颜色方向注意图生成器仅通过L1Loss预测
M
^
\hat M
M^:
L
M
(
F
M
(
X
A
B
;
θ
M
)
,
M
)
=
∣
∣
M
^
−
M
∣
∣
1
(5)
\mathscr{L}_M(\mathscr{F}_M(X_{AB};\theta_M),M)=||\hat M-M||_1\tag{5}
LM(FM(XAB;θM),M)=∣∣M^−M∣∣1(5)
二阶段端到端学习CWAN
A
B
_{AB}
AB,包括微调预先训练的注意图生成器。建议使用以下损失函数:
L
A
B
(
F
A
B
(
X
A
B
;
θ
A
B
)
,
Y
A
B
)
=
L
H
+
α
L
M
S
E
(6)
\mathscr{L}_{AB}(\mathscr{F}_{AB}(X_{AB};\theta _{AB}),Y_{AB})=\mathscr{L}_{\mathscr{H}}+\alpha\mathscr{L}_{MSE}\tag{6}
LAB(FAB(XAB;θAB),YAB)=LH+αLMSE(6)
这里
α
\alpha
α是重量,
L
H
\mathscr{L_H}
LH是应用于
X
^
A
B
\hat X_{AB}
X^AB的Huber损失。由于相对较高的色彩饱和度效应,Huber损耗在图像彩色化领域取得了巨大的成功,这使得它适合于增强微光图像。此外,我们选择Huber损失也是因为它是一个稳健的估计器,可以帮助避免平均问题。LMSE是应用于估计的关注点
P
^
\hat P
P^的均方误差损失,如下所示:
L
H
=
{
1
2
(
X
^
A
B
−
Y
A
B
)
2
,
if
∣
X
^
A
B
−
Y
A
B
∣
≤
δ
δ
∣
X
^
A
B
−
Y
A
B
∣
−
1
2
δ
2
,
otherwise
(7)
\mathscr{L_H}=\begin{cases}\frac{1}{2}(\hat X_{AB}-Y_{AB})^2,\text{if }|\hat X_{AB}-Y_{AB}|\leq \delta\\\delta|\hat X_{AB}-Y_{AB}|-\frac{1}{2}\delta^2,\text{otherwise}\end{cases}\tag{7}
LH={21(X^AB−YAB)2,if ∣X^AB−YAB∣≤δδ∣X^AB−YAB∣−21δ2,otherwise(7)
L
M
S
E
=
1
β
∣
∣
(
P
^
−
P
)
⊙
B
P
∣
∣
2
2
(8)
\mathscr{L}_{MSE}=\frac{1}{\beta}||(\hat P-P)\odot B_P||_2^2\tag{8}
LMSE=β1∣∣(P^−P)⊙BP∣∣22(8)
其中
β
\beta
β是胡伯损耗的参数,当CWAN
A
B
_{AB}
AB输出
P
^
\hat P
P^中所有位置的颜色时,
L
M
S
E
\mathscr{L}_{MSE}
LMSE损失仅采用
B
P
B_P
BP中随机采样颜色位置的重建颜色来计算。