论文阅读：Deep Bilateral Learning for Real-Time Image Enhancement

Matrix_11

已于 2023-07-20 23:11:03 修改

阅读量2.3k

点赞数 3

分类专栏：计算摄影与图像处理文章标签：计算机视觉图像处理深度学习

于 2022-05-14 07:56:59 首次发布

本文链接：https://blog.csdn.net/matrix_space/article/details/124763454

版权

计算摄影与图像处理专栏收录该内容

94 篇文章

订阅专栏

本文介绍了一种新型网络架构DeepBilateralLearning，它通过低维BilateralGrid预测和局部仿射变换，实现在移动端的高效实时图像处理，包括复杂的图像增强效果，能在毫秒级别运行且灵活性强。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Deep Bilateral Learning for Real-Time Image Enhancement

ABSTRACT

对于移动端的图像处理，性能功耗是一个非常大的挑战，这篇文章提出了一种新的网络架构可以实现实时的图像处理，这种网络架构是基于 bilateral grid processin 和 local affine color transforms，利用成对的输入-输出图像，文章作者训练一个卷积神经网络去预测 bilateral space 中的局部仿射变换模型的系数，这个网络结构可以同时在局部以及全局层面，基于图像内容去估计一个想要的图像变换。在实际运行的时候，先将高分辨率的图像缩小送入网络，网络再产生一组在 bilateral space 的仿射变换系数，这些仿射变换通过一种保边的形式上采样回高分辨，这些高分辨率的仿射变换就可以直接作用于原始的高分辨率图像。文章作者指出，这种算法可以在移动端实现毫秒级的运算速度，同时可以灵活 cover 各种图像变换操作，甚至包括复杂的图像 PS 效果。

INTRODUCTION

现在消费级的终端产品拍摄的图像或者视频的分辨率越来越高，图像后处理的算法复杂度也随之升高，所以为了满足性能功耗要求，最终运行在终端产品上的代码都需要有经验的程序员仔细地去优化。图像增强是图像处理里面非常常用的一种方式，但是图像增强都有很强的主观性，很多时候，图像增强的效果都是基于人的美学感知去调试出来的，这种效果很难用传统的处理流程来复现，这篇文章提出用基于学习的方法来实现。

基于深度学习的图像处理已经有很多相关的工作了，之前的这些网络，在处理图像时候的复杂度基本和图像的分辨率成线性关系，因为之前的网络结构，其包含的算子都是要在全尺寸上运行。虽然这些网络的效果也不错，但是代价就是算法复杂度很高，无法满足很多应用场景下的实时性要求。这篇文章提出的网络结构可以运行地更快，与常见的网络相比，运行速度可以快上成百上千倍。

这个网络结构主要包括三个部分，1)：网络绝大多数的预测都是在一个低维的 bilateral grid 里面进行，这个预测后面会详细介绍，为什么称为 bilateral grid，因为这有点类似 bilateral filter，同时考虑了像素的位置与像素值。2): 网络的输出是融合权重，而不是最终的图像，这个也是借鉴了之前的一些工作，发现预测融合权重的效果比直接预测输出的效果要好。3): 最终的 loss 是在全分辨率下进行计算的，这样可以保证网络去评估对全分辨率的图像的影响。

OUR ARCHITECTURE

这个模型包含两个 stream，一个是低分辨率的 stream，一个是全分辨率的 stream，低分辨率的 stream 负责预测局部仿射变换，文章中指出，图像增强任务需要同时考虑图像的局部信息和全局信息，所以低分辨率的 stream 又同时包含了一个 local path 和一个全局 path，这两个 path 在后端融合输出最终的仿射变换。全分辨率的 stream 利用低分辨率 stream 的仿射变换信息，对输入图像在全分辨率上进行仿射变换，文章利用一种 slicing 的方式，可以用很低的运算代价实现高分辨率的仿射变换。

在这里插入图片描述

Low-resolution prediction of bilateral coefficients

低分辨率的输入 $\tilde{I}$ 文章中是固定为 256 X 256，通过一系列的卷积提取 low-level 的特征同时压缩分辨率，然后在末端进行分流，一路用全卷积算子获取局部特征，另外一路用卷积和全连接去学习一个固定尺寸的全局特征，这两路的输出，最后再融合成一组特征，这组特征通过一些线性层最后成为包含仿射系数的 bilateral grid。

Low-level features

首先利用卷积算子获取 low level 的特征, $S^{0}: = \tilde{I}$

$S_{c}^{i}[x, y] = \sigma \left( b_{c}^{i} + \sum_{x', y', c'} w_{cc'}^{i} [x', y']S_{c'}^{i-1}[sx+x', sy+y'] \right)$

$i=1, 2, ..., n_S$ 表示层数， $c, c^{'}$ 表示每一层的通道数， $w^{'}$ 表示卷积的权重， $b^{i}$ 表示 biases， $x^{'}, y^{'}$ 表示邻域的范围，激活函数用的是 RELU。文章中 $n_s$ 是 4。

Local features path

提取的 low level 特征 $S^{n_s}$ 在后端会分成两路处理，一路是利用 stride 为 1 的全卷积算子，进行卷积处理，在保持空间分辨率不变的同时，扩大了感受野，从而能够更好地提取语义特征。

Global features path

另外一路就是 global feature path，与 local feature path的输入一样，都是 low level feature $S^{n_s}$ ，这一路包含两个 stride 为 2 的卷积层，然后再加上三个全连接层，这一路最终输出一个 64 维的全局特征。

Fusion and linear prediction

接下来，就是将两路的输出进行融合，

$F_c[x, y] = \sigma \left( b_c + \sum_{c'} w'_{cc'} G_{c'}^{n_G} + \sum_{c'}w_{cc'}L_{c'}^{n_L}[x, y] \right)$

这个最终形成了一个 $16 \times 16 \times 64$ 的 feature map，这个 feature map 再通过一些线性变换，得到 $16 \times 16 \times 96$ 的 feature map：

$A_{c}[x, y] = b_{c} + \sum_{c'} F_{c'}[x, y]w'_{cc'}$

Image features as a bilateral grid

到目前为止，我们已经介绍了如何获取 feature map，接下来，我们介绍如何将 feature map 与 bilateral grid 联系起来，上面我们已经说过，我们获得了一个 $16 \times 16 \times 96$ 的 feature map，我们可以把这个 feature map 看成是一个多通道的 bilateral grid，如下所示：

$A_{dc+z}[x, y] \longleftrightarrow A_c[x, y, z]$

$d = 8$ 表示 grid 的深度，这样 $A$ 可以看成是一个 $16 \times 16 \times 8$ 的 bilateral grid，而每个 grid 包含 12 个系数，可以等价为一个 $ 3 \times 4$ 的仿射变换矩阵。

Upsampling with a trainable slicing layer

接下来，就是这篇文章最为创新的地方，通过一个 slicing 的操作，可以将低维的 feature map 和一个高维的 guidance map 结合，最后输出高维的 feature map，如下所示：

$\bar{A}_c[x, y] = \sum_{i,j,k} \tau(s_x x - i) \tau(s_y y - j)\tau(d \cdot g[x, y] - k)A_c[i,j,k]$

其中， $\tau$ 是一个线性插值函数， $\tau(\cdot) = \max(1 - |\cdot|, 0)$ , $s_x, s_y$ 是 grid 的宽高相对于全尺寸图像的比例，文章中，grid 的分辨率固定为 $16 \times 16$ , $d = 8$ ，如果全尺寸的分辨率为 $\times W$ ，那么， $s_x = 16/W, s_y = 16/H$ ， $\in [0, W-1], y \in [0, H-1]$ ， $s_x x, s_y y$ 的范围都是在 0-16 左右， $g [x, y]$ 的取值范围是 0-1， $\cdot g[x, y]$ 的范围大概是 0-8, 如果 $i\in[0, 15]，j \in[0, 15], k \in [0, 7]$ ，再结合线性插值函数的定义，里面的很多值都是 0，这么算下来，这个 slicing 算子似乎很稀疏，可以理解成是将全分辨的大图分成了 $16 \times 16$ 块，从 [0, 0] 到 [15,15]，当处于 [0, 0] 块的时候， $i, j$ 只有等于 0, 0 的时候，slicing 才有值，其它时候都是 0，处于 [5, 5] 块的时候，那么 $i, j$ 在 0-4 之间 slicing 的输出都是有值的，剩下的也都是 0，这个 slicing 操作看起来，似乎越往后面的块，算法的复杂度越高，最复杂的情况下，一个点需要进行 $16 \times 16 \times 8$ 这么多次的插值运算。最后的输出是一个 12 通道的全分辨率的 feature map $\bar A_c , c \in [0, 11]$ 。