Learning to See in the Dark
一、作者
-
Chen Chen - UIUC
-
Qifeng Chen - Intel Labs
-
Jia Xu - Intel Labs
-
Vladlen Koltun - Intel Labs
二、相关术语
-
ISO
-
感光度
-
衡量底片对于光的灵敏程度,由敏感度测量学及测量数个数值来决定,最近已经被国际标准化组织标准化
-
-
lux
-
光照度,勒克司度
-
表示被摄主体表面单位面积上受到的光通量,是衡量拍摄环境的一个重要指标
-
-
SNR
-
信噪比
-
-
photon
-
光量子,简称光子
-
传递电磁相互作用的基本粒子,是一种规范玻色子
-
-
LibRaw
-
一个提供图像数据处理的库,处理对象为数字摄像机采集到的 RAW 数据
-
三、摘要
-
低光子数 & 低信噪比使得低光成像具有挑战性。
-
短曝光图像受到噪声的影响,长时间曝光会导致图像模糊并且通常是不切实际的。
-
各种去噪,去模糊和增强技术的有效性受限于极端条件,例如夜间的视频率成像。
-
为了支持基于学习的低光图像处理方法的发展,本文推出了一个数据集,包含众多低光短曝光图像和长曝光图像的图像对。
-
基于上述数据集,本文提出了一个可端到端训练的全卷积网络,用于处理低光图像。该网络直接以传感器原始数据为输入,完全取代那些传统的处理步骤,并在新数据集上得到良好的结果。
四、引言
-
任何成像系统都会产生噪声,特别是低光照下的成像。
-
高 ISO 可以使得图像采集的亮度增高,但同时也会使噪声增大。
-
诸如直方图均衡化等后处理能够带来一些收益,但是无法改善因低光子带来低信噪比的现象。
-
诸如光圈、延长曝光和闪光灯等物理方法能改善低光下低信噪比成像,但是也有特定的缺陷,比如延长曝光时间会因相机抖动或者物体运动而导致模糊。
-
目前对低光图像进行去噪、去模糊和增强的方法大多数都是建立在中等噪声强度的昏暗环境的前提下,本文将关注那些照明严重受限条件和短曝光条件下的极低光成像改善。
-
下图(a)是具有比普通相机感光度高的索尼相机拍摄的效果,可以看到,即便感光度较高,由于本身环境缺少光照,使得效果非常黑暗;(b)是具有极端高感光度的相机拍摄的效果,图像中大多数内容能够得到辨别,但图像整体昏暗,带来较多的噪声,嘈杂,颜色失真,而且使用极端高的感光度拍摄是不现实的;(c)是本文方法恢复的效果。
-
还有一种 burst alignment 算法,但它可能不适用于极端环境条件,并且因为使用了 lucky imaging 的原因,该算法不适用于视频处理。
-
本文提出的深度神经网络将学习低光原始图像数据的处理,包括颜色变换、去马赛克、降噪和图像增强等,对网络进行端到端的训练有利于避免噪声放大和错误积累。
-
目前相关方法的评估都是基于合成或无 Ground Truth 的低光图像数据集,本文认为现在还没有一个可用的公共数据集,并提出了一个带有众多短曝光低光图像和长曝光高质量图像图像对的数据集。
-
本文的神经网络在提出的数据集上做了评估,成功做到了提亮、降噪和还原颜色。
五、相关工作
-
图像降噪
-
total variation,总变差
-
小波域处理
-
稀疏编码
-
nuclear norm minimization
-
3D transform-domain filltering(BM3D)
-
stacked sparse denoising auto-encoders(SSDA)
-
trainable nonlinear reaction diffusion(TNRD)
-
multi-layer ceptrons
-
deep autoencoders
-
CNN
-
多图像去噪
-
-
低光图像增强
-
直方图均衡化
-
伽马校正
-
逆暗通道
-
小波变换
-
Retinex 模型
-
照明映射估计
-
-
噪声图像数据集(合成)
-
RENOIR Dataset(图像对空间错位)
-
Google HDR+ Dataset(不针对极端低光图像,基本在白天拍摄)
-
Darmstadt Noise Dataset(白天拍摄,不针对低光图像)
-
六、See-in-the-Dark Dataset
-
SID 数据集中包含 5094 个短曝光原始图像,并且每张短曝光原始图像都有一张对应的长曝光参考图像组成图像对。
-
多个短曝光图像可以对应相同的长曝光参考图像。
-
其中,长曝光参考图像只有 424 张。
-
-
摄像机型号
-
Sony α7S Ⅱ
-
全帧 Bayer 传感器
-
分辨率:4240 × 2832
-
-
Fujifilm X-T2
-
APS-C X-Trans 传感器
-
分辨率:6000 × 4000
-
-
-
短曝光原始图像的曝光时间设置为 1/30 到 1/10,长曝光参考图像的曝光时间被设置为短曝光时间的 100 到 300 倍长,例如 10 到 30 秒。
-
长曝光参考图像仍然包含小部分噪声,但感知质量已经足够。
-
SID 数据集包含室内和室外场景的图像
-
室外图像一般采集于夜晚,处于月光下或者路灯下。
-
摄像机的照明度为 0.2 lux 到 5 lux
-
-
室内图像更黑暗,一般采集于封闭房间,只提供一些微弱的间接照明
-
摄像机的照明度为 0.03 lux 到 0.3 lux
-
-
-
基于随机的原则,SID 数据集 20% 被选为测试集,10% 被选为验证集,其余为训练集。
七、方法
-
传统方法、L3 和 Burst 方法的流图如图 7-1 所示。
-
传统方法通常需要根据摄像机的特性进行再调整。
-
因为传统和 L3 方法都处理不了极低信噪比的图像,所以它们都不适用于低光成像改善。
-
Burst 方法在智能手机摄像头上取得了不错的效果,但引入了一定的复杂度,并且因为幸运成像的缘由不易扩展到视频上使用。
-
本文神经网络
-
端到端
-
FCN(全卷积网络)
-
-
输入:传感器采集的原始数据,非 sRBG 格式数据
-
输出:sRGB格式数据
-
工作流程(Bayer 传感器)
-
将传感器生成的 Bayer Raw 数据(H × W × 1)处理为四个通道的新数据结构 Input(H/2 × W/2 × 4)
-
将Input(H/2 × W/2 × 4)减去代表黑色的电平,得到新Input
-
将Input(H/2 × W/2 × 4)进行比例放大
-
将Input(H/2 × W/2 × 4)送入 FCNN,FCNN 输出 Output(H/2 × W/2 × 12)
-
将 Output(H/2 × W/2 × 12)处理为最终的 Output(H × W × 3),即 RGB 格式
-
-
比例放大
-
将放大率作为可调的一个外部输入,类似于 摄像机的 ISO 设置,可调整输出图像的亮度,且放大率越大,输出图像的亮度越大,如图 7-3 所示,图注为放大率。
-
-
FCNN结构选择
-
一个多尺度上下文聚合网络(a multi-scale context aggregation network, CAN) - Q. Chen, J. Xu, and V. Koltun. Fast image processing with fully-convolutional networks. In ICCV, 2017.
-
一个 U-net(默认) - O. Ronneberger, P. Fischer, and T. Brox. U-net: Convolutional networks for biomedical image segmentation. In MICCAI, 2015.
-
残差网络不被考虑,因为输入和输出使用不同的颜色空间进行图像表示
-
-
训练
-
Loss
-
L1 loss
-
-
Optimizer
-
Adam
-
-
放大率
-
长曝光参考图像与短曝光原始图像的曝光时间比
-
-
数据增广
-
随机裁剪(patch size 为 512 × 512)、反转和旋转
-
-
epochs
-
4000
-
-
learning rate
-
1 ~ 2000 epochs:10-4
-
2001 ~ 4000 epochs:10-5
-
-
八、实验
-
与传统方法相比
-
数据是通过 Fujifilm X-T2 采集的,感光度为 800,光圈为 f/7.1,曝光时间为 1/30 s,摄像机照明为 1 lux。
-
如图 8-1 所示,(a)图为未处理前的效果,(b)图为传统方法处理后的效果,(c)为本文方法处理后的效果,可以看到,传统方法处理后仍存在较多噪声和颜色失真。图 8-2 和 8-3 也表现出了这种结果,其中图 6 是一个新的摄像机(iPhone 6s 摄像头)拍摄到的画面。
-
-
与去噪和burst方法相比
-
选取 BM3D 作为参考方法
-
BM3D 是一种非盲去噪方法,该方法需要将噪声强度作为一个外在输入参数方可,若该输入参数设置得小,去噪后可能仍留下明显的噪声,若该输入参数设置得大,去噪后可能使得图像过于平滑。
-
本文方法是一种盲去噪方法,该方法能够根据噪声强度自适应地去噪。
-
-
选取 burst 方法作为参考方法
-
burst 方法是理想化的,非常适用于已经对齐的图像序列,但这种理想的图像序列在现实中一般不会存在,而这次比较所用的测试数据集就已经是对齐了的。
-
采用主观比较法,让受调查者主管选择哪种方法生成的图像具有更高的感知质量,但事先不会告诉被调查者哪张是由哪个方法生成的,且展示顺序也是随机的。
表 8-1 Sony x300 set Sony x100 set Ours > BM3D 92.4% 59.3% Ours > Burst 85.2% 47.3% -
由表 8-1 可以看到,在两个不同的测试集上,本文方法均得到了更高的评价。
-
-
不同参数组合的 PSNR / SSIM
表 8-2 Sony Fuji 默认参数组合 28.88 / 0.787 26.61 / 0.680 U-net → CAN 27.40 / 0.792 25.71 / 0.710 Raw → sRGB 17.40 / 0.554 25.11 / 0.648 L1 → SSIM loss 28.64 / 0.817 26.20 / 0.685 L1 → L2 loss 28.47 / 0.784 26.51 / 0.680 Packed → Masked 26.95 / 0.744 / X-Trans 3 × 3 → 6 × 6 / 23.05 / 0.567 Stetched references 18.23 / 0.674 16.85 / 0.535 -
在两个测试集上,U-net 比 CAN 得到的 PSNR 更高,CAN 比 U-net 得到的 SSIM 更高,但是 CAN 会引起颜色的损失。
-
在两个测试集上,使用原始 RAW 数据比使用 sRGB 得到的效果要好。
-
在两个测试集上,loss 从 L1 更换为 L2 或 SSIM loss 得不到更好的效果,而添加 total variation loss 或 GAN loss 也得不到更好得效果。
-
关于直方图均衡化的使用
-
(a) 为对某张长曝光参考图像进行直方图均衡化后的图像。
-
(b) 为将训练集中所有长曝光参考图像进行直方图均衡化后,进行训练,得到的某张输出图像,可以看到,该图像在墙壁上产生了一些伪影。
-
(c) 为不做直方图均衡化后进行训练得到的某张输出图像,可以看到,该图像偏暗。
-
(d) 为对 (c) 进行直方图均衡化后的输出图像。
-
-
-
九、个人总结
-
本文的两点贡献
-
为低光成像恢复的科研收集了一个 SID 数据集。
-
将 U-net 应用于低光成像领域。
-
十、待了解
-
burst alignment 算法
-
lucky imaging
-
total variation
-
稀疏编码
-
nuclear norm minimization
-
3D transform-domain filltering(BM3D)
-
stacked sparse denoising auto-encoders(SSDA)
-
trainable nonlinear reaction diffusion(TNRD)
-
deep autoencoders
-
inverse dark channel prior
-
Retinex model
-
illumination map estimation
-
RENOIR Dataset
-
Google HDR+
-
Darmstadt Noise Dataset
-
sRGB
-
libraw