代码:https://github.com/WeilanAnnn/FD-GAN
目录
1. 摘要
本文提出了Generative Adversarial Networks with Fusion-discriminator (FD-GAN)。该网络用到了图像的频率信息作为额外的先验。模型输出的结果更加真实和自然,且有更少的偏色和伪影。
2. 提出的方法
网络的整体结构如图1所示。
2.1 Densely Connected Encoder-decoder
本文生成器是一个端到端的网络,即输入雾图,输出无雾图,而不用使用中间结果和大气散射模型。生成器是一个编码-解码器结构,如图1(a)所示。编码器包含了稠密块,稠密块包含了一系列的卷积,BN和ReLU层。编码器中的池化层将特征图缩减到输入的1/8。而在解码器中,本文使用最近邻差值逐步上采用特征图到原始图像的大小。
2.2 Fusion-discriminator
有雾和雾图图像之间有许多差异。例如,和有雾图像相比,无雾图像通常有更高的对比度和更尖锐的边缘。本文设计判别器时,将频率信息作为额外限制信息。
图像可以被分解为高频(high-frequency,HF)和低频(low-frequency,LF)组件。高频组件为图像强度骤变的区域,例如尖锐边缘,纹理信息等。相反,低频组件为强度变换缓慢的区域,即平滑区域。随着高频信息被移除,LF着重在图像的亮度,颜色和对比度,并且可以让颜色对比更加方便。本文使用这个思想提出了一个新颖的融合判别器。高频和低频可以帮助判别器判别雾图和无雾图在纹理和主色调的差别。本文使用高斯滤波移除图像的高频信息而得到低频信息;使用拉普拉斯锐化图像,从而得到高频信息。图2展示了雾图和无雾图提取到的高频和低频信息。
如图1(b)所示,给定输入雾图
I
I
I和Ground-Truth
J
J
J,生成器输出结果为
G
(
I
)
G(I)
G(I)。分别求取
G
(
I
)
G(I)
G(I)和
J
J
J的低频组件和高频组件,
G
(
I
)
L
F
G(I)_{LF}
G(I)LF,
G
(
I
)
H
F
G(I)_{HF}
G(I)HF,
J
L
F
J_{LF}
JLF,
J
H
F
J_{HF}
JHF。训练判别器时,将
[
G
(
I
)
,
G
(
I
)
L
F
,
G
(
I
)
H
F
]
[G(I),G(I)_{LF},G(I)_{HF}]
[G(I),G(I)LF,G(I)HF]标定为
f
a
k
e
fake
fake,将
[
J
,
J
L
F
,
J
H
F
]
[J,J_{LF},J_{HF}]
[J,JLF,JHF]标定为
r
e
a
l
real
real。因此,本文的方法可以公式化为如下min-max优化问题:
min
G
max
D
E
J
∼
p
t
r
a
i
n
(
J
)
[
log
D
(
J
⋈
J
L
F
⋈
J
H
F
)
]
+
E
I
∼
p
G
(
I
)
[
log
(
1
−
D
(
G
(
I
)
⋈
G
(
I
)
L
F
⋈
G
(
I
)
H
F
)
)
]
(3)
\begin{array}{l} \min _{G} \max _{D} E_{J \sim p_{{train }}(J)}\left[\log D\left(J \bowtie J_{L F} \bowtie J_{H F}\right)\right] \\ +E_{I \sim p_{G}(I)}\left[\log \left(1-D\left(G(I) \bowtie G(I)_{L F} \bowtie G(I)_{H F}\right)\right)\right] \tag{3} \end{array}
minGmaxDEJ∼ptrain(J)[logD(J⋈JLF⋈JHF)]+EI∼pG(I)[log(1−D(G(I)⋈G(I)LF⋈G(I)HF))](3)
其中, ⋈ \bowtie ⋈表示concat操作。通过将低频和高频信息融合到判别器中,可以产生更加自然和真实的结构,并且会有更少的偏色和伪影。
2.3 Discussions on discriminator
本文还尝试了分别使用 [ G ( I ) , G ( I ) L F ] / [ J , J L F ] [G(I),G(I)_{LF}]/[J,J_{LF}] [G(I),G(I)LF]/[J,JLF]和 [ G ( I ) , G ( I ) H F ] / [ J , J H F ] [G(I),G(I)_{HF}]/[J,J_{HF}] [G(I),G(I)HF]/[J,JHF]来训练融合判别器,分别称为Fusion-LF和Fusion-HF。除了判别器,其余部分的网络完全相同。表1和图3展示了相应的结果。
以上结果,可以得到如下观察:1)Fusion-full模型在SOTS和NTIRE18数据集上均达到最高PSNR和SSIM值,其次是Fusion-LF模型。 2)每个模型在真实世界图像上的视觉效果都可以相互媲美。 它们都能去雾,并产生令人满意的去雾效果。 3)与Fusion-LF相比,Fusion-HF具有更大的雾度效果,但倾向于在物体上产生很少的色彩失真。 4)由于LF强调图像的主色调,对比度和结构,因此Fusion-LF的除雾效果具有更好的色彩保真度和对比度 5)全融合模型可以成功融合Fusion-HF和Fusion-LF模型的优势,并产生更自然的结果,具有更好的对比度,亮度和色彩保真度。 直观上,HF强调图像的边缘和纹理,而雾图像通常会丢失边缘信息,这可能有助于鉴别器检测和区分雾的区域。 因此,Fusion-HF可以去除更多的雾。 对于LF,它强调图像的主要颜色和对比度信息。 因此,在LF约束下,Fusion-LF模型可以产生视觉上令人满意的结果,并且颜色失真更少。 结果表明,不同的变体可以根据不同的融合信息表现出不同的特性。 总体而言,融合判别器的所有三个变体都可以获得出色的性能,体现了这种架构的有效性。
2.4 Loss Function
1. Pixel-wise loss
给定雾图
I
i
I_i
Ii,生成器输出
G
(
I
i
)
G(I_i)
G(Ii)和Ground-Truth
J
i
J_i
Ji,
N
N
N个样本的
L
1
L1
L1范式损失定义如下:
L
1
=
∑
i
=
1
N
∥
G
(
I
i
)
−
J
i
∥
1
(4)
L_{1}=\sum_{i=1}^{N}\left\|G\left(I_{i}\right)-J_{i}\right\|_{1} \tag{4}
L1=i=1∑N∥G(Ii)−Ji∥1(4)
它可以测量图像像素空间中去雾图像与Ground-Truth之间的失真/逼真度。
2. SSIM loss
SSIM用于测量两幅图像之间的结构相似度,定义如下:
SSIM
(
G
(
I
)
,
J
)
=
2
μ
G
(
I
)
μ
J
+
C
1
μ
G
(
I
)
2
+
μ
J
2
+
C
1
⋅
2
σ
G
(
I
)
J
+
C
2
σ
G
(
I
)
2
+
σ
J
2
+
C
2
(5)
\operatorname{SSIM}(G(I), J)=\frac{2 \mu_{G(I)} \mu_{J}+C_{1}}{\mu_{G(I)}^{2}+\mu_{J}^{2}+C_{1}} \cdot \frac{2 \sigma_{G(I) J}+C_{2}}{\sigma_{G(I)}^{2}+\sigma_{J}^{2}+C_{2}} \tag{5}
SSIM(G(I),J)=μG(I)2+μJ2+C12μG(I)μJ+C1⋅σG(I)2+σJ2+C22σG(I)J+C2(5)
其中,
μ
x
\mu_x
μx和
σ
x
2
\sigma_x^2
σx2分别表示
x
x
x的均值和方差。
σ
x
y
\sigma_{xy}
σxy表示
x
x
x和
y
y
y的协方差。
C
1
,
C
2
C_1,C_2
C1,C2为保持稳定性的常数。因为SSIM的值在
[
0
,
1
]
[0,1]
[0,1]之间,SSIM损失定义如下:
L
S
=
1
−
S
S
I
M
(
G
(
I
)
,
J
)
(6)
L_{S}=1-S S I M(G(I), J) \tag{6}
LS=1−SSIM(G(I),J)(6)
3. Perceotual loss
感知损失在前面多篇博客中都有提到,这里不再赘述。感知损失定义如下:
L
p
=
∑
i
=
1
N
∥
ϕ
(
G
(
I
i
)
)
−
ϕ
(
J
i
)
∥
1
(7)
L_{p}=\sum_{i=1}^{N}\left\|\phi\left(G\left(I_{i}\right)\right)-\phi\left(J_{i}\right)\right\|_{1} \tag{7}
Lp=i=1∑N∥ϕ(G(Ii))−ϕ(Ji)∥1(7)
其中, ϕ ( . ) \phi(.) ϕ(.)为VGG16网络中ReLU1_2层提取到的特征图。
4. Adversarial loss
GAN网络中的对抗损失,定义如下:
L
G
=
log
(
1
−
D
f
u
s
i
o
n
(
G
(
I
)
⋈
G
(
I
)
L
F
⋈
G
(
I
)
H
F
)
)
(8)
L_{G}=\log \left(1-D_{{fusion}}\left(G(I) \bowtie G(I)_{L F} \bowtie G(I)_{H F}\right)\right) \tag{8}
LG=log(1−Dfusion(G(I)⋈G(I)LF⋈G(I)HF))(8)
这种对抗损失致力于网络生成自然无雾图像的最佳解决方案。
综合以上四种损失,本文的去雾网络的总损失为:
L
=
α
1
L
1
+
α
2
L
S
+
α
3
L
p
+
α
4
L
G
(9)
L=\alpha_{1} L_{1}+\alpha_{2} L_{S}+\alpha_{3} L_{p}+\alpha_{4} L_{G} \tag{9}
L=α1L1+α2LS+α3Lp+α4LG(9)
α 1 , α 2 , α 3 , α 4 \alpha_1,\alpha_2,\alpha_3,\alpha_4 α1,α2,α3,α4均为正权重。
3. 实验
3.1 数据集
本文基于Microsoft COCO数据集,生成了去雾训练集。Microsoft COCO包含了户内和户外的图像,利用MegaDepth估计图像的深度图,大气光在 [ 0.5 , 1 ] [0.5, 1] [0.5,1]上随机取样,散射系数在 [ 1.2 , 2.0 ] [1.2, 2.0] [1.2,2.0]上随机取样。最后生成 24 , 220 24,220 24,220对训练集。
3.2 其余部分略
例如实验结果,消融实验等,感兴趣查看原文。
4. 总结
本文提出了FD-GAN,该网路利用了频率信息监督判别器,从而使网络生成更加自然和真实的结果。