Learning Multi-Scale Photo Exposure Correction阅读札记

Cassia tora

已于 2022-04-13 20:42:24 修改

阅读量1.5k

点赞数 2

分类专栏：图像增强文章标签：计算机视觉深度学习神经网络

于 2022-04-13 20:22:10 首次发布

本文链接：https://blog.csdn.net/weixin_43101257/article/details/124151713

版权

图像增强专栏收录该内容

20 篇文章 9 订阅

订阅专栏

Learning Multi-Scale Photo Exposure Correction阅读札记

论文发表于2021年的CVPR。

Abstract

本文目标：
同时校正过曝光和欠曝光的问题。
贡献：
（1）提出一个由粗到细的深度学习方法，用于校正sRGB图像中存在的过曝光和欠曝光错误：将曝光校正问题表述为颜色增强和细节增强这两个子问题，使用深度神经网络（DNN）模型，以端到端方式进行训练，首先校正全局颜色信息，然后再改善图像细节。
（2）提出一个新的数据集，其中包含24000多张从raw-RGB到sRGB的图像，这些图像具有不同的曝光设置，并且每张图像有对应的适当曝光的参考图像 $g t$ 。

Dataset

本文数据集由MIT-Adobe FiveK数据集渲染，使用相对EV为 -1.5，-1，+0，+1 和 +1.5 去渲染每个raw-RGB图像，模拟欠曝光、正常曝光和过曝光图像。使用专业摄影师手动修正图像作为 $g t$ 参考图像，而不是使用渲染的相对EV为+0的图像（因为MIT-Adobe FiveK数据集中原始图像中包含一定曝光错误）。最后将渲染后的图像转换为标准的8位sRGB颜色空间编码。
数据集分为三个集合：（i）包含有17675个图像的训练集，（ii）包含有750个图像的验证集，（iii）包含有5905个图像的测试集。训练、验证、测试图像不共享任何共同的图像。
在这里插入图片描述

Method

输入一个8位的sRGB图像 $I$ ，使用拉普拉斯金字塔将 $I$ 进行多分辨率分解，再按顺序处理多分辨率图像来校正颜色和细节错误，输出一个曝光错误比 $I$ 少的校正图像 $Y$ 。

1、由粗到细的曝光校正

令表示 $I$ 的 $n$ 层拉普拉斯金字塔， $X_{(l) }$ 表示 $X$ 的第 $l$ 层。金字塔的最后一层 $X_{(n)}$ 存储 $I$ 的低频信息——全局颜色信息；第一层 $X_{(1)}$ 到倒数第二层 $X_{(n-1)}$ 存储 $I$ 的高频信息——由粗到细的细节信息。
在这里插入图片描述
上图的（A）和（B）分别显示了过曝光图像和对应的良好曝光图像。如图（C）所示，在拉普拉斯金字塔中，仅替换低频层（即全局颜色信息）即可获得显著的曝光校正。如图（D）所示，可以通过校正拉普拉斯金字塔的每一层，以顺序的方式增强细节来改进最终图像。然而在实际处理过程中是无法获得图（B）中的正确曝光图像，因此需要预测在拉普拉斯金字塔每一层损失的颜色和细节信息。

2、由粗到细的网络

本文提出的模型包含 $n$ 个子网络，依次处理输入图像 $I$ 的 $n$ 层拉普拉斯金字塔，其中每一个子网络都是一个类U-Net架构，具有不固定的权重。根据每个子问题（即全局颜色校正和细节增强）对最终结果的影响程度，给相应的子网络分配不同的权重。网络框架图如下：
在这里插入图片描述
（1）最大的（按权重计算）子网络（黄色部分所示）用于处理 $I$ 的全局颜色信息，即对低频层 $X_{(n)}$ 处理，生成一个放大后的图片 $Y_{(n)}$ ，其中放大过程使用具有可训练权重的跨步转置卷积将子网络的输出放大两倍。
（2）添加第一个中频层 $X_{(n-1)}$ 到 $Y_{(n)}$ ，由模型中第二个子网络处理。这个子网络增强了当前层的相应细节，并生成了一个残差层，然后添加到 $Y_{(n)}+ X_{(n-1)}$ 中以重建图像 $Y_{(n-1)}$ ，这相当于对应的高斯金字塔 $n - 1$ 层。
…
（n）细化上采样过程一直进行到产生最终输出图像 $Y$ 。

3、损失

对模型进行端到端训练，以最小化以下损失函数：
在这里插入图片描述

重构损失 $L_{rec}$

在重构的参考图像和适当曝光的参考图像之间使用 $L_1$ 损失函数：
在这里插入图片描述
$h, w$ ：训练图像的高度和宽度
$p$ ：校正后图像 $Y$ 和适当曝光的参考图像 $T$ 中每个像素的索引

金字塔损失 $L_{pyr}$

为了引导每个子网络遵循拉普拉斯金字塔重建过程，于是在金字塔的每一层引入专用损失：
在这里插入图片描述
$T_{(l)}$ ：参考图像 $T$ 两倍上采样后的高斯金字塔的第 $l$ 层（使用一个简单的插值过程进行上采样操作）
$h_l, w_l$ ：训练图像拉普拉斯金字塔第 $l$ 层高度和宽度的两倍
$p$ ：校正后图像在第 $l$ 层 $Y_{(l)}$ 和适当曝光参考图像的第 $l$ 层 $T_{(l)}$ 的每个像素的索引
金字塔损失不仅对每个子网络的任务给出原则性的解释，而且与仅使用重建损失的训练相比，视觉伪影更少，如下图所示：
在这里插入图片描述

对抗损失 $L_{adv}$

为了从真实感和吸引力方面感知增强校正后图像输出的重建，还考虑了对抗损失作为正则化器：
在这里插入图片描述
$S$ ：sigmoid函数
$D$ ：与主网络一起训练的鉴别器DNN。
⭐受前人工作启发，最初训练没有对抗损失项 $L_{adv}$ 以加速主网络的收敛，在收敛时再添加对抗损失项 $L_{adv}$ 微调网络以增强初始结果。