《HDRUNet: Single Image HDR Reconstruction with Denoising and Dequantization》阅读笔记
代码地址:代码地址
论文出处:CVPR2021
一. 本文主要工作
1. 背景,领域
受限于传感器,现有消费级数码相机在真实场景中仅能捕获有限范围的亮度。此外,成像过程中还会引入噪声与量化误差。为获得具有优异视觉质量的高动态范围图像,现有方案往往采用多曝光图像合成方式。然而,相同场景的多曝光图像的获取难度极大,而且现有HDR重建方法往往忽略了噪声与量化损失。
2. 贡献
(1)提出了一种新的基于学习的方法:HDRUNet,它采用空域动态编解码网络学习端到端的映射,同时考虑降噪与反量化。该网络包含一个UNet风格的基础网络以充分利用多尺度分层信息、一个条件网络用于执行模式相关的调制以及一个加权网络用于自适应选择保留信息。
(2)同时提出了Tanh_L1损失用于平衡过曝与正常曝光的影响。
二. 方法:
LDR与HDR图像梯度对比
从对比图可以看到:
- 无论是HDR图像还是LDR图像都存在噪声。且在曝光较好的区域,噪声梯度明显。
- 由于动态范围压缩与量化,LDR图像高光区域的梯度几乎不可见。
- 图像中的噪声分布并不均匀,与常见的高斯白噪声不同。噪声模式差异不仅仅存在于高亮与暗部区域,同时还在于曝光较好区域。
- 得出结论,图像HDR重建往往伴随降噪与反量化。对此作者设计一种空域可变调制模块。
网络结构
网络结构主要分成三个部分:Base Network,Condition Network,Weighting Network。
Base Network.
BaseNet采用UNet风格结构,以8bit带噪LDR图像作为输入,重建16bit的HDR图像,所预测的HDR图像应在过曝与欠曝区域包含更多的细节,同时具有更少的噪声
Condition Network.
HDR重建的关键是对输入LDR图像的过曝与欠曝区域进行丢失细节重建。但同幅图像的不同区域有不同的曝光和亮度。不同图像的整体亮度和对比度信息也不相同。因此,对输入图像的处理需要基于特定图像和特定位置的方法,受限于传统CNN的空域不变形,即所有图像、所有位置均采用相同的滤波器权值处理,作者提出一种具有空间特征变换(SFT)的条件网络对Base Network的中间特征进行调节,实现空域可变调制。
Weighting Network.
HDR重建最大的挑战在于:过曝与欠曝区域的细节重建,而大部分的正常曝光区域对于学习阶段的贡献非常小。为使整个网络更加关注过曝区域的细节重建,作者提出一个权重估算网络,用于预测在曝光正常的区域上要保留的软权重图W:
注:I表示LDR输入,ˆY表示最终重建的HDR图像,G(I)表示BaseNet的输出。
损失函数
在真实场景图像HDR重建中,不仅要考虑动态范围的重建,同时还需要考虑噪声与量化伪影的降低。然而,现有损失函数(比如L1和L2损失)并不适用于同时处理上述问题。直接作用于HDR数值上的损失函数会聚焦于高亮区域而低估低量区域,导致比较差的量化性能与视觉质量。
为解决上述问题,定义损失函数:
ˆY 表示预测的HDR图像,H 表示相应的真实图像。
原因对比分析
(1)定量对比,L1与L2相比具有更高的PSNR- l和PSNR-µ值,引入Tanh操作后尽管PSNR- l值会有所降低,但是更关注的PSNR-µ值则会提高。
(2)视觉对比,Tanh L1具有最佳视觉效果。
三. 实验
数据集
训练数据采用NTIRE2021 HDR竞赛的数据。基于训练集进行实验。训练集由26个长镜头中的1494个连续帧组成。作者在每个长镜头中随机选取3帧,共78帧作为验证集,剩余的1416帧用于训练。
评估标准
选择PSNR- l和PSNR-µ作为评估标准,前者更倾向于高亮值的准确性,而后置则更倾向于视觉相似性。主要评估标准为后者。
细节说明
实验中,残差模块数为8,stride=2的卷积用于下采样,pixelshuffle用上采样。数据预处理:将图像裁剪成步长为240的480×480。训练过程中,batch=16,Adam优化器+Kaiming初始化,初始学习率为2 × 10^-4,每
2 × 10^5次迭代折半。训练patch设为256 × 256,此时PSNR-µ性能更好。
四. 结果
消融研究
所提模块的有效性
可以看出:随着模块的加入,性能都在进一步提升。
特征调制的必要性
可以看出:
- CSRNet全局调制对于HDR重建影响非常小,甚至会造成性能下降。
- 使用不同区域不同处理的SFT,性能提升。
与其他方法对比
- 定量结果
HDRCNN采用的是L2损失函数,具有较高的PSNR- l值,但PSNR-µ值很低,作者所提方案取得最佳PSNR-u指标,同时具有超过平均值的PSNR-L指标。 - 定性结果
不同方案的视觉效果对比,可以看到:所提方法不仅重建了高亮区域的细节,而且大大降低了低亮区域的噪声。
五. 总结:
- 传统HDR合成方法通常涉及多张不同曝光度的图像的拍摄和后续合并,需要复杂的图像处理和算法,包括图像对齐、曝光融合等。基于深度学习的方法通常更自动化和便捷,不需要手动拍摄多张曝光不同的图像,只需使用一张图像并应用深度学习模型即可生成HDR效果。
- 传统HDR方法可以适用于各种场景,包括室内、室外、静态和动态场景。深度学习方法的性能通常受限于它们在训练时所使用的数据分布。
- 深度学习方法需要大量的数据和计算资源,尤其是在训练阶段。模型训练需要大量时间和资源。传统方法在这方面可能更加节省资源。