Learning to Enhance Low-Light Image via Zero-Reference Deep Curve Estimation阅读札记

Cassia tora

已于 2022-07-16 19:24:07 修改

阅读量1.9k

点赞数 2

分类专栏：图像增强文章标签：计算机视觉人工智能深度学习

于 2022-07-07 20:46:32 首次发布

本文链接：https://blog.csdn.net/weixin_43101257/article/details/125661510

版权

图像增强专栏收录该内容

20 篇文章 9 订阅

订阅专栏

Learning to Enhance Low-Light Image via
Zero-Reference Deep Curve Estimation阅读札记

论文发表于2021年的PAMI，为Zero-DCE的升级版，简称为Zero-DCE++。

1 Abstract

本文提出零参考深度曲线估计(Zero-DCE)，用于弱光图像增强。
本文方法训练一个轻量级的深度网络DCE-Net，以弱光图像为输入，以高阶曲线为输出，然后利用这些曲线对输入图像进行像素级调整，以获得增强的图像。
本文在Zero-DCE的基础上提出了加速和轻型版本称为Zero-DCE++。
贡献：
1）是第一个不依赖于成对和非成对训练数据的弱光增强网络，从而避免了过拟合的风险。
2）设计了一个特定于图像的曲线，它能够通过迭代应用自身来逼近像素级和高阶曲线。这样的图像特定曲线可以在很宽的动态范围内有效地进行映射。
3）通过间接评估增强质量的特定于任务的非参考损失函数展示了在没有参考图像的情况下训练深度图像增强模型的潜力。
在这里插入图片描述

2 Method

算法框架图

在这里插入图片描述
图中给出Zero-DCE的框架。首先深度曲线估计网络(DCE-Net)估计给定输入图像的一组最佳拟合的光增强曲线(LE-curve)，然后该框架通过迭代应用曲线来映射输入图像的RGB通道的所有像素，以获得最终的增强图像。

2.1 光增强曲线(LE-curve)

设计目标：
1）增强图像的每个像素值应在[0,1]的归一化范围内，以避免溢出截断引起的信息丢失；
2）曲线应保持单调，以保持相邻像素的差异(对比度)；
3）在梯度反向传播过程中，该曲线的形式应尽可能简单且可微。
根据目标设计曲线为：
在这里插入图片描述
$x$ ：像素坐标
$I (x)$ ：输入图像
$L E (I (x); α)$ ：增强图像
$α$ ：属于 $[- 1, 1]$ ，为可训练曲线参数，可调整LE曲线的幅度，控制曝光水平。
算法框架图(b)为不同调整参数 $α$ 下的LE曲线。LE曲线能够增加或减少输入图像的动态范围，这种能力有利于增强弱光区域，也有助于消除过度曝光的伪影。
迭代应用LE曲线得到高阶曲线：
在这里插入图片描述
$n$ ：控制曲率的迭代次数。（本文 $n = 8$ ）
算法框架图（c）为不同 $α$ 和 $n$ 的高阶曲线，其调节能力比图（b）的曲线更强(曲率更大)。
为了实现局部调整，将高阶曲线的单一参数 $α$ 改为像素级参数得到像素级曲线，即给定输入图像的每个像素都有一条与最佳拟合 $α$ 相对应的曲线来调整其动态范围。因此曲线公式重新定义为:
在这里插入图片描述
$A$ ：与给定图像相同大小的参数映射。
将LE曲线分别应用于RGB三个通道，可以更好的保持固有颜色，降低过饱和度的风险。下图展示了不同颜色通道的最佳拟合参数图具有相似的调整趋势，但值不同，表明弱光图像的三个通道之间的相关性和差异。
在这里插入图片描述

2.2 DCE-Net

DCE-Net网络结构图如下图所示，输入是一幅弱光图像，输出是一组相应的高阶曲线的像素级曲线参数映射。本文采用七个卷积层对称连接的CNN，每层包含32个大小为3×3和步长为1的卷积核，之后是ReLU激活函数。最后一个卷积层后面是Tanh激活函数，它为8次迭代生成24个参数映射( $n = 8$ )，其中每次迭代为3个通道（即RGB通道）生成3个曲线参数图。
在这里插入图片描述

2.3 无参考损失函数(Loss Functions)

本文提出一组可微的无参考损失函数，实现DCE-Net的零参考学习。
$∙$ 空间一致性的损失（ $L_{spa}$ ）
$L_{spa}$ 通过保留输入图像与其增强版本相邻区域的差异来鼓励增强图像的空间一致性
在这里插入图片描述
$K$ ：局部区域个数
$Y$ ：增强图像
$I$ ：输入图像中局部区域的平均强度值（本文局部区域的大小设置为4×4）
$Ω (i)$ ：以区域i为中心的四个相邻区域(上、下、左、右)。
下图说明了计算空间一致性损失的过程：
在这里插入图片描述

$∙$ 曝光控制损失（ $L_{exp}$ ）
$L_{exp}$ 来控制曝光水平。曝光控制损失衡量的是局部区域的平均强度值与良好曝光度 $E$ 之间的距离,（本文 $E = 0.6$ ）
在这里插入图片描述
$M$ ：大小为16×16的不重叠局部区域个数
$Y$ ：增强图像中某个局部区域的平均强度值。
$∙$ 颜色恒常性的损失（ $L_{col}$ ）
$L_{col}$ 来校正增强后图像中可能出现的颜色偏差，并建立三个调整后通道之间的关系
在这里插入图片描述
$J^p$ ：增强后图像中 $p$ 通道的平均强度值
$(p, q)$ ：一对颜色通道。
$∙$ 照明平滑的损失（ $L_{tvA}$ ）
$L_{tvA}$ 保持相邻像素之间的单调关系

$N$ ：迭代次数
$_x$ 和 $_y$ ：分别为水平和垂直梯度。
★ 总损失（ $L_{total}$ ）
在这里插入图片描述
$W_{col}$ 和 $W_{tvA}$ ：损失的权重。(本文 $W_{col}=0.5$ ， $W_{tvA}=20$ )

3 Zero-DCE++

提出一种称为Zero-DCE++的加速轻量化版本，以降低计算成本和获得更快的推理速度。
（1）通过使用深度可分离卷积替换卷积层来重新设计DEC-Net，以减少网络参数。每个深度可分离卷积层由一个深度卷积和一个点卷积组成，深度卷积的核大小为3×3和步长1，点卷积的核大小为1×1和步长1。
（2）如下图所示，不同迭代阶段的估计曲线参数在大多数情况下是相似的
在这里插入图片描述
以上现象表明曲线参数图可以在不同的迭代阶段重用以处理大多数情况，故重新构造曲线估计，只估计3个曲线参数映射，然后在不同的迭代阶段重用它们。因此，将等式 $LE_n(x) = LE_{n-1}(x)+A_n(x) LE_{n-1}(x)(1- LE_{n-1}(x))$ 重新表示为
在这里插入图片描述
3）Zero-DCE对输入图像的大小不敏感，所以可使用下采样的输入图像作为DCE-Net的输入（本文将输入样本减少了12倍），然后将估计的曲线参数图上采样回原始分辨率以进行图像增强（低分辨率输入可以显着降低计算成本）。
⭐这些修改为Zero-DCE++提供了具有微型网络（10K可训练参数，0.115G FLOPs，用于大小为1200×900×3的图像）、实时推理速度（在单个 GPU/CPU 上为1000/11 FPS用于大小为1200×900×3的图像）的优势，和快速训练（20分钟）。

4 Experiment

4.1 消融实验

4.1.1 每项损失的贡献

下图展示了各种损失组合训练的Zero-DCE结果：
在这里插入图片描述
如图（c）所示，没有空间一致性损失的 $L_{spa}$ ，增强结果的对比度（云朵区域）相对低于完整结果。
如图（d）所示，没有曝光控制损耗 $L_{exp}$ 无法恢复弱光区域。
如图（e）所示，没有颜色恒定性损失 $L_{col}$ 时，会出现严重的色差。
如图（ f）所示，没有光照平滑度损失 $L_{tvA}$ 会阻碍相邻区域之间的相关性，从而导致明显的伪影。

4.1.2 三通道调节的优势

下图展示了分别使用RGB、CIE Lab和YCbCr颜色空间训练的Zero-DCE结果（分别将CIE Lab的L分量和YCbCr的Y分量作为DCE-Net的输入，生成的一组曲线参数图分别调整Lab和YCbCr）：
在这里插入图片描述
如图（c）和（d）所示，在CIE Lab和YCbCr颜色空间中调整的结果存在明显的颜色偏差（墙壁颜色）和过饱和（灯笼区域）。

4.1.3 参数设置的影响

Zero-DCE中参数包括DCE-Net的深度（卷积层个数） $l$ 和宽度（每层特征的个数） $f$ 以及迭代次数 $n$ ，不同参数训练结果如下图所示：
在这里插入图片描述
对比图（b）和（e），7个卷积层比3个卷积层处理效果更好
对比图（c）和（e），特征个数为32比特征个数为7的处理效果更好
对比图（d）（e）和（f），可以看出一次迭代处理的效果不好，整体增强效果不明显。随着迭代次数的增加，增强效果越好，但8次迭代和16次迭代效果差别不大，故选择 $Zero-DCE_{l7-f32-n8}$ 作为最终模型。
定量结果如下表所示：
在这里插入图片描述

4.1.4 训练数据的影响

使用不同数据训练，结果如下图所示：
在这里插入图片描述
如图（c）和（d）所示，如果训练数据中只有低光图像，Zero-DCE倾向于过度增强光照良好的区域（杯子）（ $Zero-DCE_{Low}$ 表示只使用少量低光图像训练， $Zero-DCE_{LargeL}$ 表示只使用大量低光图像训练）。
如图（e）所示，当使用更多的多曝光训练数据（ $Zero-DCE_{LargeLH}$ ）时，Zero-DCE可以更好地恢复暗区域（玫瑰）。

4.1.5 良好曝光水平 $E$ 的影响

使用不同的良好曝光水平E（0.4、0.5、0.6、0.7）训练网络，结果如下图所示：
在这里插入图片描述
定量结果如下表所示：

如图所示， $Zero-DCE_{E0.5}$ 和 $Zero-DCE_{E0.6}$ 获得视觉上令人愉悦的亮度；如表所示， $Zero-DCE_{E0.6}$ 取得了最好的量化分数，故选择 $Zero-DCE_{E0.6}$ 作为最终模型。

4.1.6 Zero-DCE与Zero-DCE++

如第3节所述，Zero-DCE++首先用深度分离卷积替换DCE-Net的卷积层，然后将不同大小的输入馈送到修改后的框架，最后在8次迭代中重用曲线参数映射。
（1）增强性能和输入大小之间的统计关系如下表所示：
在这里插入图片描述
不同输入大小最终生成的结果如下图所示：

综合图表结果可知，12×↓的结果达到了最高的平均峰值信噪比值，故选择 $12 \times ↓$ 作为Zero-DCE++最终模型。
（2）消融模型包括具有深度可分离卷积的Zero-DCE（表示为DSconv）和在不同迭代阶段共享曲线参数图的Zero-DCE（表示为 Pshared）。Zero-DCE的输入是原始分辨率图像，而在DSconv和Pshared中默认使用12次下采样操作。消融模型的定量比较结果如下表所示：
在这里插入图片描述
如表所示，引入DSconv和Pshared会略微降低峰值信噪比值，但显著减少了可训练参数和FLOPs。