论文阅读:FD-GAN: Generative Adversarial Networks with Fusion-discriminator for Single Image Dehazing

本文提出了一种名为FD-GAN的生成对抗网络,利用融合判别器结合图像的高频和低频信息进行图像去雾。通过在判别器中融合低频和高频信息,生成器能够生成更自然、真实且少有偏色和伪影的去雾图像。实验表明,这种方法在保留图像结构和色彩保真度方面表现优越。
摘要由CSDN通过智能技术生成

论文题目及作者
代码:https://github.com/WeilanAnnn/FD-GAN

1. 摘要

    本文提出了Generative Adversarial Networks with Fusion-discriminator (FD-GAN)。该网络用到了图像的频率信息作为额外的先验。模型输出的结果更加真实和自然,且有更少的偏色和伪影。

2. 提出的方法

    网络的整体结构如图1所示。
网络整体结构

图1 网络整体结构

2.1 Densely Connected Encoder-decoder

    本文生成器是一个端到端的网络,即输入雾图,输出无雾图,而不用使用中间结果和大气散射模型。生成器是一个编码-解码器结构,如图1(a)所示。编码器包含了稠密块,稠密块包含了一系列的卷积,BN和ReLU层。编码器中的池化层将特征图缩减到输入的1/8。而在解码器中,本文使用最近邻差值逐步上采用特征图到原始图像的大小。

2.2 Fusion-discriminator

    有雾和雾图图像之间有许多差异。例如,和有雾图像相比,无雾图像通常有更高的对比度和更尖锐的边缘。本文设计判别器时,将频率信息作为额外限制信息。
    图像可以被分解为高频(high-frequency,HF)和低频(low-frequency,LF)组件。高频组件为图像强度骤变的区域,例如尖锐边缘,纹理信息等。相反,低频组件为强度变换缓慢的区域,即平滑区域。随着高频信息被移除,LF着重在图像的亮度,颜色和对比度,并且可以让颜色对比更加方便。本文使用这个思想提出了一个新颖的融合判别器。高频和低频可以帮助判别器判别雾图和无雾图在纹理和主色调的差别。本文使用高斯滤波移除图像的高频信息而得到低频信息;使用拉普拉斯锐化图像,从而得到高频信息。图2展示了雾图和无雾图提取到的高频和低频信息。
雾图和无雾图提取到的高频和低频信息

图2 雾图和无雾图提取到的高频和低频信息

    如图1(b)所示,给定输入雾图 I I I和Ground-Truth J J J,生成器输出结果为 G ( I ) G(I) G(I)。分别求取 G ( I ) G(I) G(I) J J J的低频组件和高频组件, G ( I ) L F G(I)_{LF} G(I)LF G ( I ) H F G(I)_{HF} G(I)HF J L F J_{LF} JLF J H F J_{HF} JHF。训练判别器时,将 [ G ( I ) , G ( I ) L F , G ( I ) H F ] [G(I),G(I)_{LF},G(I)_{HF}] [G(I),G(I)LF,G(I)HF]标定为 f a k e fake fake,将 [ J , J L F , J H F ] [J,J_{LF},J_{HF}] [J,JLF,JHF]标定为 r e a l real real。因此,本文的方法可以公式化为如下min-max优化问题:
min ⁡ G max ⁡ D E J ∼ p t r a i n ( J ) [ log ⁡ D ( J ⋈ J L F ⋈ J H F ) ] + E I ∼ p G ( I ) [ log ⁡ ( 1 − D ( G ( I ) ⋈ G ( I ) L F ⋈ G ( I ) H F ) ) ] (3) \begin{array}{l} \min _{G} \max _{D} E_{J \sim p_{{train }}(J)}\left[\log D\left(J \bowtie J_{L F} \bowtie J_{H F}\right)\right] \\ +E_{I \sim p_{G}(I)}\left[\log \left(1-D\left(G(I) \bowtie G(I)_{L F} \bowtie G(I)_{H F}\right)\right)\right] \tag{3} \end{array} minGmaxDEJptrain(J)[logD(JJLFJHF)]+EIpG(I)[log(1D(G(I)G(I)LFG(I)HF))](3)

    其中, ⋈ \bowtie 表示concat操作。通过将低频和高频信息融合到判别器中,可以产生更加自然和真实的结构,并且会有更少的偏色和伪影。

2.3 Discussions on discriminator

    本文还尝试了分别使用 [ G ( I ) , G ( I ) L F ] / [ J , J L F ] [G(I),G(I)_{LF}]/[J,J_{LF}] [G(I),G(I)LF]/[J,JLF] [ G ( I ) , G ( I ) H F ] / [ J , J H F ] [G(I),G(I)_{HF}]/[J,J_{HF}] [G(I),G(I)HF]/[J,JHF]来训练融合判别器,分别称为Fusion-LF和Fusion-HF。除了判别器,其余部分的网络完全相同。表1和图3展示了相应的结果。

表1 不同判别器的定量指标

不同判别器的定量指标
不同判别器的视觉结果

图3 不同判别器的视觉结果

    以上结果,可以得到如下观察:1)Fusion-full模型在SOTS和NTIRE18数据集上均达到最高PSNR和SSIM值,其次是Fusion-LF模型。 2)每个模型在真实世界图像上的视觉效果都可以相互媲美。 它们都能去雾,并产生令人满意的去雾效果。 3)与Fusion-LF相比,Fusion-HF具有更大的雾度效果,但倾向于在物体上产生很少的色彩失真。 4)由于LF强调图像的主色调,对比度和结构,因此Fusion-LF的除雾效果具有更好的色彩保真度和对比度 5)全融合模型可以成功融合Fusion-HF和Fusion-LF模型的优势,并产生更自然的结果,具有更好的对比度,亮度和色彩保真度。 直观上,HF强调图像的边缘和纹理,而雾图像通常会丢失边缘信息,这可能有助于鉴别器检测和区分雾的区域。 因此,Fusion-HF可以去除更多的雾。 对于LF,它强调图像的主要颜色和对比度信息。 因此,在LF约束下,Fusion-LF模型可以产生视觉上令人满意的结果,并且颜色失真更少。 结果表明,不同的变体可以根据不同的融合信息表现出不同的特性。 总体而言,融合判别器的所有三个变体都可以获得出色的性能,体现了这种架构的有效性。

2.4 Loss Function

    1. Pixel-wise loss
    给定雾图 I i I_i Ii,生成器输出 G ( I i ) G(I_i) G(Ii)和Ground-Truth J i J_i Ji N N N个样本的 L 1 L1 L1范式损失定义如下:
L 1 = ∑ i = 1 N ∥ G ( I i ) − J i ∥ 1 (4) L_{1}=\sum_{i=1}^{N}\left\|G\left(I_{i}\right)-J_{i}\right\|_{1} \tag{4} L1=i=1NG(Ii)Ji1(4)

    它可以测量图像像素空间中去雾图像与Ground-Truth之间的失真/逼真度。

    2. SSIM loss
    SSIM用于测量两幅图像之间的结构相似度,定义如下:
SSIM ⁡ ( G ( I ) , J ) = 2 μ G ( I ) μ J + C 1 μ G ( I ) 2 + μ J 2 + C 1 ⋅ 2 σ G ( I ) J + C 2 σ G ( I ) 2 + σ J 2 + C 2 (5) \operatorname{SSIM}(G(I), J)=\frac{2 \mu_{G(I)} \mu_{J}+C_{1}}{\mu_{G(I)}^{2}+\mu_{J}^{2}+C_{1}} \cdot \frac{2 \sigma_{G(I) J}+C_{2}}{\sigma_{G(I)}^{2}+\sigma_{J}^{2}+C_{2}} \tag{5} SSIM(G(I),J)=μG(I)2+μJ2+C12μG(I)μJ+C1σG(I)2+σJ2+C22σG(I)J+C2(5)

    其中, μ x \mu_x μx σ x 2 \sigma_x^2 σx2分别表示 x x x的均值和方差。 σ x y \sigma_{xy} σxy表示 x x x y y y的协方差。 C 1 , C 2 C_1,C_2 C1,C2为保持稳定性的常数。因为SSIM的值在 [ 0 , 1 ] [0,1] [0,1]之间,SSIM损失定义如下:
L S = 1 − S S I M ( G ( I ) , J ) (6) L_{S}=1-S S I M(G(I), J) \tag{6} LS=1SSIM(G(I),J)(6)

    3. Perceotual loss
    感知损失在前面多篇博客中都有提到,这里不再赘述。感知损失定义如下:
L p = ∑ i = 1 N ∥ ϕ ( G ( I i ) ) − ϕ ( J i ) ∥ 1 (7) L_{p}=\sum_{i=1}^{N}\left\|\phi\left(G\left(I_{i}\right)\right)-\phi\left(J_{i}\right)\right\|_{1} \tag{7} Lp=i=1Nϕ(G(Ii))ϕ(Ji)1(7)

    其中, ϕ ( . ) \phi(.) ϕ(.)为VGG16网络中ReLU1_2层提取到的特征图。

    4. Adversarial loss
    GAN网络中的对抗损失,定义如下:
L G = log ⁡ ( 1 − D f u s i o n ( G ( I ) ⋈ G ( I ) L F ⋈ G ( I ) H F ) ) (8) L_{G}=\log \left(1-D_{{fusion}}\left(G(I) \bowtie G(I)_{L F} \bowtie G(I)_{H F}\right)\right) \tag{8} LG=log(1Dfusion(G(I)G(I)LFG(I)HF))(8)

    这种对抗损失致力于网络生成自然无雾图像的最佳解决方案。

    综合以上四种损失,本文的去雾网络的总损失为:
L = α 1 L 1 + α 2 L S + α 3 L p + α 4 L G (9) L=\alpha_{1} L_{1}+\alpha_{2} L_{S}+\alpha_{3} L_{p}+\alpha_{4} L_{G} \tag{9} L=α1L1+α2LS+α3Lp+α4LG(9)

     α 1 , α 2 , α 3 , α 4 \alpha_1,\alpha_2,\alpha_3,\alpha_4 α1,α2,α3,α4均为正权重。

3. 实验

3.1 数据集

    本文基于Microsoft COCO数据集,生成了去雾训练集。Microsoft COCO包含了户内和户外的图像,利用MegaDepth估计图像的深度图,大气光在 [ 0.5 , 1 ] [0.5, 1] [0.5,1]上随机取样,散射系数在 [ 1.2 , 2.0 ] [1.2, 2.0] [1.2,2.0]上随机取样。最后生成 24 , 220 24,220 24,220对训练集。

3.2 其余部分略

    例如实验结果,消融实验等,感兴趣查看原文。

4. 总结

    本文提出了FD-GAN,该网路利用了频率信息监督判别器,从而使网络生成更加自然和真实的结果。

### 回答1: ESRGAN是增强型超分辨率生成对抗网络的缩写,它是一种深度学习模型,用于将低分辨率图像转换为高分辨率图像。它使用生成对抗网络(GAN)的方法,通过训练生成器和判别器来提高图像的质量。ESRGAN是目前最先进的超分辨率算法之一,它可以生成更加真实、细节更加丰富的高分辨率图像。 ### 回答2: ESRGAN是一种增强超分辨率生成对抗网络(Enhanced Super-Resolution Generative Adversarial Networks)的算法,它采用了图像增强技术和深度学习的方法,可以将低分辨率(LR)的图像转化为高分辨率(HR)的图像。该算法主要的贡献在于,它可以生成更加逼真的HR图像,从而更好地应用于实际的图像处理领域。 该算法主要是由两个子模型组成的,一个是生成模型(Generator),另一个是判别模型(Discriminator)。生成模型通过学习HR图像和相应的LR图像之间的关系,生成更加逼真的HR图像。而判别模型则评估生成模型生成的HR图像是否真实,从而提高生成模型的准确度。 ESRGAN算法采用特殊的损失函数,即感知损失和自适应增强损失,来优化生成模型。感知损失通过VGG网络来计算生成模型和HR图像之间的差异,以此来调整生成模型的参数。自适应增强损失则用于动态调整生成模型的输出图像的细节层次,使生成模型产生更加真实的输出图像。 ESRGAN算法在图像增强领域取得了显著的成果,其生成的HR图像质量要比先前的SRGAN算法有了很大的提升。因此,ESRGAN算法在实际应用中具有广泛的前景,可以为图像处理领域提供更加高效、准确和可靠的方法。 ### 回答3: ESRGAN(Enhanced Super-Resolution Generative Adversarial Networks)是一种利用深度学习算法进行图像超分辨率的技术。其主要思路是基于GAN模型,通过训练一个生成器去从低分辨率图像生成高分辨率图像,同时以高分辨率的真实图片为样本来训练判别器模型,使其能够区分出生成器生成的图像是否为真实高清图像。 ESRGAN相对于传统的超分辨率算法,具有以下几个优点: 1.超分辨率效果更好。传统的超分辨率算法往往是基于一些数学模型进行插值运算,因此往往会出现图像模糊、失真等问题。而ESRGAN能够通过深度学习算法学习到更加准确的纹理特征,从而可以生成更为真实的高清图像。 2.可扩展性更强。ESRGANGAN模型可以通过增加网络深度、增加训练数据等方式对模型进行优化,从而提高图像超分辨率效果。 3.针对性更强。ESRGAN可以针对不同种类的图像进行训练,从而能够对各种类型的图像进行超分辨率处理,具有广泛的适用性。 4.易于应用。ESRGAN训练出的模型可以很方便地应用到实际生产环境中,对于需要进行图像超分辨率处理的应用场景具有很大的帮助作用。 虽然ESRGAN在图像超分辨率方面具有较为突出的优势,但其也存在一些缺点和挑战。比如需要大量的高清图像数据用于训练,需要考虑到训练时间和计算资源的问题;还需要解决一些局部纹理复杂的图像超分辨率问题。总之,ESRGAN是一种非常有潜力的图像超分辨率算法,将有助于推动图像处理技术的进一步发展。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值