论文阅读：HardGAN: A Haze-Aware Representation Distillation GAN for Single Image Dehazing

最新推荐文章于 2023-07-12 21:37:45 发布

Space_walk

最新推荐文章于 2023-07-12 21:37:45 发布

阅读量2.4k

点赞数 5

分类专栏：图像去雾论文阅读文章标签：图像去雾

本文链接：https://blog.csdn.net/space_walk/article/details/109060528

版权

图像去雾论文阅读专栏收录该内容

22 篇文章 112 订阅

订阅专栏

论文题目及作者
代码：https://github.com/huangzilingcv/HardGAN

1. 摘要

本文提出了Haze-Aware Representation Distillation GAN(HardGAN)，用于单幅图像去雾。

2. 网络结构

下图1展示了生成器结构。对于判别器，文章已说明，使用的是《Image-to-image translation with conditional adversarial networks》中的patch-GAN的判别器。
网络总体结构

图1 生成器结构

Generator

图中，蓝色HARD模块为Haze-Aware Representation Distillation(HARD)模块。生成器由粗到细分为三层，即图1中的三行。第一层为最粗略层，包含五个HARD模块；第二层为中间层，包含了六个HARD模块；第三层为最精细层，包含了八个HARD模块。
给定一张雾图 $X$ 和其对应的Ground-Truth $Y$ ，用 $x_m^n$ 和 $y_m^n$ 表示第m层的第n个HARD模块。第一层和第二层的输入分别为 $X\downarrow$ 和 $X\downarrow\downarrow$ ，其中 $\downarrow$ 代表下采样。

符号举例如图所示， $x$ 表示模块输入， $y$ 表示模块的输出。

第一层和第二层前半部分的输入公式化如下：
$x_{2}^{n}=A D D\left(y_{3}^{n-1} \downarrow, y_{2}^{n-1}\right) \tag{2}$

$x_{1}^{n}=A D D\left(\left(y_{3}^{n-1} \downarrow\right) \downarrow, y_{2}^{n-1} \downarrow, y_{1}^{n-1}\right) \tag{3}$

有了上图的解释， $(2) (3)$ 就很好理解了。举个例子，当 $n = 3$ 时，有：
$x_{2}^{3}=A D D\left(y_{3}^{2} \downarrow, y_{2}^{2}\right)$

$x_{1}^{3}=A D D\left(\left(y_{3}^{2} \downarrow\right) \downarrow, y_{2}^{2} \downarrow, y_{1}^{2}\right)$

第二层和第三层后半部分的输入公式化如下：
$x_{2}^{n}=A D D\left(y_{1}^{n-1} \uparrow, y_{2}^{n-1}\right) \tag{4}$

$x_{3}^{n}=A D D\left(\left(y_{1}^{n-1} \uparrow\right) \uparrow, y_{2}^{n-1} \uparrow, y_{3}^{n-1}\right) \tag{5}$

其中， $ADD(\cdot)$ 表示逐通道相加， $\uparrow$ 表示上采样。

HARD模块

HARD模块结构如图2所示。

图2 HARD模块结构

每个HARD模块包含两个分支。第一个分支（图2下半部分）用于生成每个通道的大气亮度和空间信息。第二个分支（图2上半部分）用于每个通道组合空间信息和大气亮度，它包含了三个子分支，分别用于雾感知图生成，全局大气亮度估计和空间信息插入。
本文将每个通道的大气亮度编码为1×1×2的矩阵，表示为 $\gamma_i^g$ 和 $\beta_i^g$ （即1×1×2矩阵的第三个维度的两个值， $i$ 表示第 $i$ 通道），第一分支通过网络学习得到这两个元素。对于第二分支的第一子分支，利用这两个元素和输入图像得到全局大气亮度，公式如下：
$G_{i}=\gamma_{i}^{g} \frac{x-\mu}{\sigma}+\beta_{i}^{g} \tag{6}$

其中， $\mu$ 和 $\sigma$ 为输入 $x$ 的均值和标准差。
同样，对于每个通道的空间信息，第一分支将其编码为H×W×2的矩阵，表示为 $\gamma_i^l$ 和 $\beta_i^l$ 。第二分支的第三子分支，利用这两个元素和输入图像得到：
$L_{i}=\gamma_{i}^{l} \frac{x-\mu}{\sigma}+\beta_{i}^{l} \tag{7}$

为了自适应地融合大气亮度和空间信息，将输出特征图馈入实例规范化，然后馈入Sigmoid层，以生成每个通道的雾度感知图 $A$ ，其中 $A_i$ 表示第 $i$ 通道的雾度感知图。这种方法可确保我们的模型在遇到不规则类型的雾时更改其焦点。
融合上述三个特征，得到输出：
$y_{i}=\left(1-A_{i}\right) \otimes G_{i}+A_{i} \otimes L_{i} \tag{8}$

$\otimes$ 表示逐元素相乘。

不知道是我的理解有问题还是作者写的有问题，这一部分看的我云里雾里。例如，大气亮度如果是逐通道的话，为什么 $(6)$ 中的 $x$ 没有下标 $i$ ？又比如，第一分支相同的网络结构，为什么得到两种不同尺寸的输出（1×1×2和H×W×2）。

3. 损失函数

损失函数包含三部分，分别为：对抗损失，平滑 $L 1$ 损失以及感知损失。总损失如下：
$\mathcal{L}=\lambda_{a d v} \mathcal{L}_{a d v}+\lambda_{L_{1}} \mathcal{L}_{1}+\lambda_{p e r} \mathcal{L}_{p e r} \tag{9}$

其中， $\lambda_1 = 1.2$ ， $\lambda_{per} = 0.04$ ， $\lambda_{adv} = 0.05$ 。

3.1 Adversarial Loss

$\mathcal{L}_{a d v}(G, D)=E[D(y)]-E[D(G(x))]+\lambda E\left[(|\nabla D(\alpha x-(1-\alpha G(x)))|-1)^{2}\right] \tag{10}$

该对抗损失应该只是理论上的。

3.2 Smooth $L 1$ Loss

$L 1$ 损失公式如下：
$\mathcal{L}_{1}=\frac{1}{N} \sum_{y=1}^{N} \sum_{i=1}^{3} \alpha\left(\hat{Y}_{i}(z)-Y_{i}(z)\right) \tag{11}$

其中 $\hat{Y}_i(z)$ 和 ${Y}_i(z)$ 分别为去雾图和Ground-Truth在像素点 $z$ 上第 $i$ 通道的值。 $N$ 为总像素点数， $\alpha$ 定义如下：

$\alpha(e)=\left\{\begin{aligned} 0.5 e^{2}, & & \text { if }|e|<1 \\ |e|-0.5, & & \text { otherwise } \end{aligned}\right. \tag{12}$

3.3 Perceptual Loss

感知函数不多赘述，公式如下：
$\mathcal{L}_{\text {per}}=\sum_{j=1}^{3} \frac{1}{C_{j} H_{j} W_{j}}\left\|\phi_{j}(y)-\phi_{j}\left(y_{t}\right)\right\| \tag{13}$

$\phi_j$ 为预训练的VGG19的第 $j$ 层激活函数。

4. 其余部分

其余部分感兴趣的可以去看原文，没什么值得分析的。

5. 总结

本文提出了一种新颖的多尺度图像去雾网络。所提出的方法没有明确估计传输图和大气光强度，而是自适应地将局部空间信息和全局大气亮度融合在一起，这些学习方法是通过学习的单个通道的雾度感知图指导的。在合成和真实雾图像上进行的大量实验证明了本文方法的有效性。除了具有均匀雾的图像，本文的方法还可以很好地去除图像中的密集非均匀雾。

Space_walk

关注

5
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
论文阅读：HardGAN: A Haze-Aware Representation Distillation GAN for Single Image Dehazing

代码：https://github.com/huangzilingcv/HardGAN目录1. 摘要2. 网络结构GeneratorHARD模块3. 损失函数3.1 Adversarial Loss3.2 Smooth L1L1L1 Loss3.3 Perceptual Loss4. 其余部分5. 总结1. 摘要本文提出了Haze-Aware Representation Distillation GAN(HardGAN)，用于单幅图像去雾。2. 网络结构下图1展示了生成器结构。.
复制链接

扫一扫