论文一---Deep White-Balance Editing, CVPR 2020 (Oral)_学习记录（论文解读）

_张一凡

已于 2022-03-27 10:12:51 修改

阅读量4.7k

点赞数 1

分类专栏： white_balance 文章标签： python 深度学习

于 2022-03-20 21:52:29 首次发布

本文链接：https://blog.csdn.net/weixin_31588979/article/details/123596421

版权

white_balance 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

论文一—Deep White-Balance Editing, CVPR 2020 (Oral)_学习记录（论文解读）

0、论文下载：论文下载，源码下载：源码下载
U-NET网络介绍 U-Net网络介绍
1、论文阅读理解
Abstract
我们引入了一种深度学习方法来真实地编辑sRGB图像的白平衡。相机捕捉传感器图像，由其集成的信号处理器(ISP)渲染到标准的RGB (sRGB)颜色空间编码。ISP渲染从一个白平衡程序开始，该程序用于去除场景照明的颜色。然后ISP应用一系列非线性色彩处理来提高最终sRGB图像的视觉质量。[3]最近的工作表明，由于ISP的非线性渲染，用不正确的白平衡渲染的sRGB图像不能很容易地纠正。[3]的工作提出了一种基于数万幅图像对的k-nearest neighbor (KNN)解决方案。
我们建议用一种端到端方式训练的深度神经网络(DNN)架构来解决这个问题，以学习正确的白平衡。我们的DNN将输入图像映射到对应室内和室外照明的两个额外白平衡设置。我们的解决方案不仅在…方面比KNN方法更精确纠正错误的白平衡设置，还提供用户可以自由编辑sRGB中的白平衡图像到其他照明设置。

Introduction and related work

白平衡(WB)是一种应用于所有相机图像的基本的低级计算机视觉任务。WB是为了保证场景对象即使在不同光照条件下成像也能呈现相同的颜色。从概念上讲，WB的目的是标准化捕获的场景的照明效果，这样所有的物体都显示为如果它们是在理想的“白光”下拍摄的。WB是相机板载集成信号处理器(ISP)应用于传感器未处理的原始rgb图像的第一个颜色处理步骤之一。在执行了WB之后，ISP应用了一些额外的显色步骤来进一步处理原始RGB图像，使其成为最终的标准RGB (sRGB)编码。虽然WB的目标是标准化场景照明的效果，但isp通常会根据照片的偏好在其色彩渲染中考虑美学因素。这种偏好并不总是符合白光假设，可能会因文化偏好、场景内容等不同因素而有所不同[8,13,22,31]。
大多数数码相机提供了一个选项，以调整WB设置期间的图像捕捉。然而，一旦WB在没有访问原始未经处理的raw-RGB图像[3]的情况下，执行WB编辑变得很有挑战性。如果WB设置错误，这个问题会变得更加困难，这将导致在最终的sRGB图像中出现强烈的偏色。编辑sRGB图像的WB的能力不仅从摄影角度来说很有用，而且对计算机视觉应用也很有帮助，如对象识别、场景理解和颜色增强[2,6,19]。[2]最近的一项研究表明，用不正确的WB设置捕获的图像对深度神经网络(DNN)模型产生了类似于无目标对抗攻击的效果。
In-camera WB procedure
为了理解在sRGB图像中WB编辑的挑战，有必要回顾一下相机如何执行WB。WB由ISP串联执行的两个步骤组成:(1)以raw-RGB矢量的形式估计相机传感器对场景照明的响应;(2)划分各R/G/B色通道在raw-RGB图像中通过相应的通道响应得到raw-RGB向量。估计光照矢量的第一步是相机的自动白平衡(AWB)程序。光照估计
是计算机视觉研究较为深入的课题，代表作品包括[1,710,14,17,18,23,28,33]。除了AWB，大多数相机允许用户在WB预中手动选择，其中raw-RGB矢量的每个预设由相机制造商决定。这些预设对应于常见的场景光源(例如，日光，阴影，白炽灯)。一旦场景的光照raw-RGB矢量被定义，一个简单的线性缩放应用到每个颜色通道独立归一化照明。这个缩放操作是使用3×3对角矩阵执行的。然后对白平衡的原始rgb图像进行进一步处理通过相机特有的ISP步骤，许多非线性性质，使最终图像呈现在一个输出参考色彩空间即sRGB色彩空间。这些非线性操作使得传统的对角线校正难以实现修正由摄像机WB错误造成的强色差的图像。
WB editing in sRGB
为了进行准确的捕获后WB编辑，渲染的sRGB值应该被正确地反转，以获得相应的未处理的raw-RGB值，然后重新渲染。这只能通过精确的辐射校准方法(例如，[12,24,34])来实现，这种方法可以计算这种颜色还原所需的元数据。 Afifi等人最近的工作中，[3]提出了一种直接校正用错误的WB设置捕获的sRGB图像的方法。这项工作提出了一个基于范例的框架，该框架使用了一个超过65000张sRGB图像的大数据集，这些图像是由一个软件摄像头管道在错误的WB设置下渲染的。每个sRGB图像都有一个对应的sRGB图像，该图像使用正确的WB设置进行渲染。给定一个输入图像，他们的方法使用KNN策略在他们的数据集中找到相似的图像，并计算一个映射函数到相应的正确的WB图像。 [3]中的工作表明，这种计算的颜色映射是由范例构建的是有效的校正输入图像。后来，Afifi和Brown[2]扩展了他们的KNN想法，绘制了一个正确的WB 图像显示不正确的目的，图像增强，以训练深度神经网络。我们的工作是受到[2,3]的启发，他们试图直接编辑sRGB图像中的WB。然而，与KNN框架相反
在[2,3]中，我们将问题置于一个单一的深度学习框架中，该框架可以同时完成两项任务——即WB校正和WB操纵，如图1所示。
Contribution
我们提出了一个新颖的深度学习框架，允许现实的sRGB捕获后WB编辑图像。我们的框架由一个单一的编码器网络和三个针对以下WB设置的解码器组成:(1)一个“正确的”AWB设置; (2)室内WB设置; (3)室外WB设置。第一个解码器允许sRGB图像，已被不正确的白平衡图像被编辑有正确的WB。这对于捕获后WB校正任务是有用的。额外的室内和室外解码器提供给用户通过混合两种输出，产生广泛的不同WB外观的能力。这支持摄影编辑任务，以调整图像的美学WB属性。我们提供广泛的实验演示了我们的方法可以很好地推广到我们训练数据之外的图像，并取得了最先进的结果。两个任务

Deep white-balance editing

Problem formulation
给定一个sRGB图像，I WB (in)，通过一个未知的相机ISP渲染任意WB设置WB (in)，我们的
目标是编辑它的颜色，使其看起来好像是用目标WB设置WB (t)重新渲染的。
如第一节所述，如果原始未经处理的raw-RGB图像是，我们的任务可以准确完成可用。如果我们可以恢复未处理的raw-RGB值，我们可以改变WB设置WB (in)为WB (t)，然后使用基于软件的ISP将图像重新渲染回sRGB颜色空间。这个理想的过程可以描述
由下面的公式:
在这里插入图片描述
其中F: I WB (in) → D WB (in)是一个未知的重建函数，它将相机渲染的sRGB图像I逆回其对应的原始rgb图像D，并应用当前的WB设置，而G: D WB (in) → I WB (t) 是一个
未知的相机渲染功能，负责编辑WB设置和重新渲染最终的图像。

在这里插入图片描述 Method overview

我们的最终目标不是重建/重新渲染原始的raw-RGB值，而是生成最终的sRGB 图像，目标WB设置为WB (t)。因此，我们可以将G(F(·))的功能建模为编码器/解码器计划。我们的编码器f将输入图像转换为一个潜在的表示，而我们的每个解码器(g1, g2，…)用不同的WB设置生成最终的图像。与公式1相似，我们可以构建如下框架:

在这里插入图片描述
我们的目标是使函数f和g t相互独立，用一个新的函数g y来改变g t，目标是a 不同的WB y不需要对f做任何修改，如公式1所示。
在我们的工作中，我们针对三种不同的WB设置:(i)WB (A): awb -表示捕获图像的场景的正确照明; WB (T):室内照明用钨丝/白炽灯代表WB; (iii) WB (S): 阴影代表WB户外照明。这就产生了三种不同的译码器(g A, g T和g S) 负责生成对应于AWB，白炽灯WB和阴影WB的输出图像。
白炽灯和阴影WB是专门根据颜色属性选择的。这是可以理解的当考虑照度的相关色温。例如白炽灯和色度WB设置分别与2850开尔文(K)和7500K色温相关。这广泛对于照明而言，色温考虑的是令人愉悦的照明范围[26,27]。而且，颜色很宽温度范围之间的白炽灯和阴影允许近似图像的颜色温度在这个范围是插值的。这个插值过程的细节在2.5节中有解释。注意没有
固定的相关色温为AWB模式，因为它的变化基于输入图像的照明条件。

Multi-decoder architecture
我们的DNN架构概述如图2所示。我们使用具有多尺度跳跃的U-Net架构[29] 编码器和解码器之间的连接。我们的框架由两个主要单元组成:第一个是4级编码器单元，负责提取输入图像的多尺度潜在表示; 第二单元包括三个4级解码器。每个单元都有不同的瓶颈和转置卷积(conv)层。在我们的编码器和每个解码器的第一级，conv层有24个通道。对于每一个后续的级别，数量通道加倍(即，第四层每个转换层有192个通道)。
Training phase

我们采用[3]生成的渲染WB数据集来训练和验证我们的模型。这个数据集包括Shade在内，通过不同的相机模型和不同的WB设置渲染的~ 65K sRGB的图像和白炽灯设置。对于每个图像，也有一个对应的地面真实图像与正确渲染 WB设置(被认为是正确的AWB结果)。这个数据集包含两个子集:集1(拍摄的62,535张图像和“Set 2”(使用单反相机和4个手机相机拍摄的2881张照片)第一个集合(即集合1)被[3]分成三个相等的分区。我们随机选取了12000个训练图像从集合1的前两个分区训练我们的模型。对于每个训练图像，我们有三张地面真实图像，用:(i) correctwb (denotedasAWB)，(ii)阴影WB， (iii)白炽灯WB。集合1的最后一个分区(21046张图片)用于测试。我们将这个分区称为集1 -测试。训练中不使用Set 2的图像整个集合用于测试。
Loss function
在这里插入图片描述