论文：Transmission Map and Atmospheric Light Guided Iterative Updater Network for Single Image Dehazing

最新推荐文章于 2022-07-04 19:22:24 发布

Space_walk

最新推荐文章于 2022-07-04 19:22:24 发布

阅读量1.7k

点赞数 1

分类专栏：图像去雾论文阅读文章标签：图像去雾

本文链接：https://blog.csdn.net/space_walk/article/details/108400362

版权

图像去雾论文阅读专栏收录该内容

22 篇文章 115 订阅

订阅专栏

论文题目及作者
项目主页：https://aupendu.github.io/iterative-dehaze（代码暂未公布）

博客题目：
论文阅读：Transmission Map and Atmospheric Light Guided Iterative Updater Network for Single Image Dehazing
(由于博客题目有100个字符的限制，而上述题目102个字符（不信你数数），所以题目只能去掉阅读二字)

1. 摘要

本文提出了一种基于迭代更新的Iterative Prior Updated Dehazing Network (IPUDN)。该网络包含三个部分，一个是初始传输率网络，一个是初始大气光网络，还有一个是迭代去雾网络。三个网络分开训练，最后结合在一起微调。

2. 网络结构

2.1 Transmission Map Estimation Network

该网络使用DCPDN中稠密链接的编码器-解码器结构（后期写这篇博客时补上（已补上，这篇博客））。该模型的使用SSIM作为损失函数而不是MSE。

2.2 Atmospheric Light Estimation Network

大气光网络结构如图1：
在这里插入图片描述

图1 大气光网络结构

该网络使用堆叠的卷积层，每个卷积层后都添加了group normalization和ReLU激活函数。大小为7 × 7，步幅为2的最大池化层用于减少空间尺寸。大的最大池化核能减少像物体颜色这样的局部因素的影响。该网络最后还是用全局最大池化层，该思想来自于DCP的想法。第五部分消融实验对比了全局最大池化层和全局均值池化层的结果。
该网络计算每个颜色通道对应的大气光，因为逐通道计算大气光能更好的处理雾图中的偏色问题。同时该网络使用MSE作为损失函数。

2.3 Iterative Dehazing Network

迭代去雾网络的结构如下图：
在这里插入图片描述

图2 迭代去雾网络结构

关于该图的描述，文章有误。如图中黄色标记处所示，两个地方出错。正确应该如下： $X_A(t - 1) = \{I, A, I^\prime(t), A^\prime(t - 1)\}$ ， $X_T(t - 1) = \{I, T, I^\prime(t), T^\prime(t - 1)\}$ 。详情请看原文3.4.2或本博客2.3.2处。

该网路主要采取两个主要策略。第一，迭代更新传输率和大气光的策略。第二，使用基于LSTM（Long Short-Term Memory）的循环卷积神经网络，用于维护时间跨步依赖性。下面分别介绍该网络中的三个部分。

2.3.1 Recurrent Dehazing Formulation

去雾网络如图2(a)所示，包含了四个主要部分：(a) 输入特征提取 $f_{in}$ ，(b) 循环层 $f_{LSTM}$ ，(c) 提取高级特征的连续6个残差块 $f_{res}$ ，(d) 去雾图像重构的输出层 $f_{out}$ 。网络公式化如下：
$\begin{array}{r} y(t)=f_{in}(X(t-1)), \\ h(t)=f_{L S T M}(h(t-1), y(t)), \\ I^{\prime}(t)=f_{o u t}\left(f_{r e s}(h(t))\right) \end{array} \tag{1}$

其中 $\{I, T, A, I^\prime(t - 1), T^\prime(t - 1), A^\prime(t- 1)\}$ 。当 $t = 1$ 时，有 $I^\prime(0) = I, T^\prime(0) = T, A^\prime(0) = A$ 。 $f_{LSTM}$ 以 $f_{in}$ 的输出 $y (x)$ 和上一阶段 $f_{LSTM}$ 的输出 $h (t - 1)$ 作为输入。第一个卷积块之后的LSTM有助于在连续的时间步长中保持依赖关系，从而使后续状态中的中间特征之间能够进行交互。

文中没有介绍当 $t = 1$ 时， $h (t - 1)$ 的取值。还有需要注意的地方，我一开始看文章以为在一次迭代中，LSTM模块执行多次，即LSTM输出结果送回LSTM输入，这样多次往返。看到后面才知道原来不是，每一次迭代LSTM只执行一次，只不过LSTM输入需要使用上一次迭代LSTM的输出。

与传统的LSTM不同，文中在每个时间步骤中递归使用整个模型，这大大减少了所需的模型大小。本文的卷积LSTM公式化如 $(2)$ 。LSTM接收 $f_{in}$ 的输出和阶段 $t - 1$ 的 $f_{LSTM}$ 的输出 $h (t - 1)$ 。LSTM中间结果有：an input gate $i (t)$ 、a forget gate $f (t)$ 、an ouput gate $o (t)$ 和 a cell state $c (t)$ 。公式化如下：
$\begin{array}{r} y(t)=f_{i n}(X(t-1)), \\ i(t)=\sigma\left(W_{i y} \otimes y(t)+W_{i s} \otimes h(t-1)+b_{i}\right), \\ f(t)=\sigma\left(W_{f y} \otimes y(t)+W_{f s} \otimes h(t-1)+b_{f}\right), \\ o(t)=\sigma\left(W_{o y} \otimes y(t)+W_{o s} \otimes h(t-1)+b_{o}\right), \\ g(t)=\tanh \left(W_{g y} \otimes y(t)+W_{g s} \otimes h(t-1)+b_{g}\right), \\ c(t)=f(t) \odot c(t-1)+i(t) \odot g(t), \\ h(t)=o(t) \odot \tanh c(t) \end{array} \tag{2}$

其中 $\sigma$ 为sigmoid函数， $\odot$ 为逐元素相乘， $\otimes$ 为卷积操作。

2.3.2 Iterative Updater Mechanism

本文算法如下：

当开始迭代时，传输率网络 $\Gamma$ 和大气光网络 $\Lambda$ 已经训练完毕。两个网络以雾图 $I$ 作为输入，并分别输出相应的传输率图 $T$ 和大气光 $A$ 。去雾网络将传输率图和大气光以及雾图作为输入，并迭代对图像进行去雾，其中传输率图和大气光也被更新。
第 $t$ 步时，去雾网络的输入为 $X (t - 1)$ 。其包含静态和动态的数据。静态数据为 $I$ ， $T$ 和 $A$ ，即每次迭代都不会改变的输入。动态数据包括上一次迭代的去雾结果 $I^\prime(t - 1)$ ，上一次迭代更新的 $T^\prime(t - 1)$ 和 $A^\prime(t- 1)$ 。第一步时， $I^\prime(t - 1) = I$ ， $T^\prime(t - 1) = T$ ， $A^\prime(t - 1) = A$ 。
每一次迭代去雾，传输率图 $T$ 和大气光 $A$ 也会随着更新，两个更新网络如图2(b)(c)所示。两个网络细节如下：

网络	输入	输出	更新
传输率更新网络 $\cup_{\Gamma}$	$X_T(t - 1) = \{I, T, I^\prime(t), T^\prime(t - 1)\}$	$\Delta T$	$T^\prime(t) = T^\prime(t - 1) + \Delta T$
大气光更新网络 $\cup_{\Lambda}$	$X_A(t - 1) = \{I, A, I^\prime(t), A^\prime(t - 1)\}$	$\Delta A$	$A^\prime(t) = A^\prime(t - 1) + \Delta A$

$\cup_{\Gamma}$ 和 $\cup_{\Lambda}$ 中除了最后一个卷积层，其余均采用ReLU激活函数。最后一层卷积层采用tanh激活函数，以使变化可以在正方向和负方向上进行。对于 $\cup_{\Lambda}$ ，作者使用全局平均池来获得单个全局更新，而不是逐像素更新，因为根据经验发现前者是更好的（消融实验）。

2.3.3 Dehazing Network Architecture

在去雾网络体系结构中， $f_{in}$ 为单卷积层， $f_{res}$ 为6个连续的残差块， $f_{out}$ 也是单卷积层。所有卷积层的卷积核大小为3 × 3，填充1 × 1，并且后面接一个ReLU激活函数。本文中，迭代次数为6次。作者做了不同迭代次数的消融实验，详细见原文。

2.3.4 Loss Function

总损失函数定义如下：
$\mathcal{L}=\mathcal{L}_{L 1}+\lambda \mathcal{L}_{P} \tag{3}$

其中， $\mathcal{L}_{L 1}$ 为mean absolute difference loss， $\mathcal{L}_{P}$ 为感知误差， $\lambda$ 为权重超参数，本文设置为 $\lambda = 0.8$ 。
$\mathcal{L}_{L 1}= \frac{1}{N} \sum\limits_{i = 1}^{N}| I^{\prime}(t) - I_{gt} | \tag{4}$

$\mathcal{L}_{P}=\frac{1}{C H W} \sum_{c=1}^{C} \sum_{h=1}^{H} \sum_{w=1}^{W}\left|\phi_{c, h, w}\left(I^{\prime}(t)\right)-\phi_{c, h, w}\left(I_{g t}\right)\right| \tag{5}$

$\phi$ 为vgg19体系结构的relu2_2层作为特征提取器。

2.4 Stage-wise Training and Fine Tuning

本文提出的方法中，存在三种可训练的体系结构：传输率网络，大气光网络和具有更新器机制的去雾网络。训练过程分为三个阶段：第一阶段，分别训练传输率网络和大气光网络；第二阶段，对去雾网络进行训练；第三阶段，将所有三个训练好的网络与多个目标函数一起进行微调。执行此微调以较低的学习速率进行，以在三个网络之间引入精细的依赖关系。

3. 读后感

文章有许多超参数，例如迭代次数和残差块块数等。作者不知道这些超参数如何设置，所以本文有许多消融实验。虽然复杂，但是方法还是对的。另外本文的迭代思想还是非常值得学习的。

4. 文章纠错（笔误）

黄标为错误之处。
1）错误1
在这里插入图片描述

错误	改正
$X_A(t - 1) = \{I, A, I^\prime(t - 1), A^\prime(t - 1)\}$	$X_A(t - 1) = \{I, A, I^\prime(t), A^\prime(t - 1)\}$
$X_T(t - 1) = \{I, A, I^\prime(t - 1), T^\prime(t - 1)\}$	$X_T(t - 1) = \{I, T, I^\prime(t), T^\prime(t - 1)\}$