An All-in-One Network for Dehazing and Beyond (IEEE2017)用于除雾及其他应用的一体化网络

摘要:

本文提出了一种使用卷积神经网络(CNN)构建的图像去雾模型,称为一体式去雾网络(AOD-Net)。它是基于重新制定的大气散射模型而设计的。 AOD-Net 没有像以前的大多数模型那样分别估计传输矩阵和大气光,而是通过轻量级 CNN 直接生成干净的图像。这种新颖的端到端设计可以轻松地将 AOD-Net 嵌入到其他深度模型中,例如 Faster R-CNN,以提高模糊图像上的高级任务性能。合成和自然模糊图像数据集的实验结果表明,我们在 PSNR、SSIM 和主观视觉质量方面比最先进的技术具有更优越的性能。此外,当将 AOD-Net 与 Faster R-CNN 连接并从头到尾训练联合管道时,我们看到模糊图像上的目标检测性能有了很大的提高。

索引术语-去雾,图像恢复,深度学习,联合训练,目标检测。

论文下载: https://arxiv.org/pdf/1707.06543.pdf

pythorch源码:  https://github.com/TheFairBear/PyTorch-Image-Dehazing

项目: https://sites.google.com/site/boyilics/website-builder/project-page

一、引言

  由于灰尘、薄雾和烟雾等气溶胶的存在,雾霾的存在给相机捕捉到的图像增加了复杂的噪声。它极大地降低了户外图像的可见度,对比度降低,表面颜色变得模糊。此外,模糊的图像将使许多后续高级计算机视觉任务的有效性处于危险之中,例如物体检测和识别。因此,去雾算法被广泛认为是(不适定的)图像恢复和增强的一个具有挑战性的实例。与图像去噪和超分辨率等其他问题类似[37]、[15],早期的去雾工作[23]、[30]、[38]、[12]假设来自同一场景的多个图像的可用性。然而,从单个图像中去除雾气现在已经获得了广泛的欢迎,因为它对于现实设置来说更实用[7]。本文主要研究单幅图像去雾问题。

A. 先前工作

作为用于去雾的先验知识,模糊图像的生成遵循广受好评的物理模型(详细信息请参见第 II-A 节)。除了估计全球大气光强度外,人们认为实现去雾的关键是传输矩阵的恢复。 [7]通过估计场景的反照率提出了一种基于物理的方法。 [9]、[34]发现有效的暗通道先验(DCP)可以更可靠地计算传输矩阵,随后进行了一系列工作[13]、[24]、[36]。 [20]强制执行边界约束和上下文正则化以获得更清晰的恢复图像。文献[33]提出了一种大气光自动恢复的加速方法。 [45]开发了一种颜色衰减先验,并为模糊图像创建了场景深度的线性模型,然后以监督方式学习模型参数。[16]说明了联合估计场景深度并从有雾的视频序列中恢复清晰潜像的方法。[1]提出了一种基于非局部先验(雾线)的算法,其假设是清晰图像中的每个颜色簇都成为RGB空间中的雾线。所有上述方法都取决于物理模型和各种复杂的图像统计假设。然而,由于从单个图像中估计物理参数通常是不准确的,因此上述方法的去雾性能并不总是令人满意。最近,随着卷积神经网络 (CNN) 在计算机视觉任务中取得普遍成功,它们也被引入图像去雾领域。DehazeNet [3] 提出了一种可训练模型来估计雾图像的传输矩阵。 [27]进一步利用了多尺度CNN(MSCNN),它首先生成一个粗尺度的传输矩阵,然后对其进行细化。

B. 主要挑战和瓶颈

  1) 缺乏端到端去雾:大多数图像恢复和增强的深度学习方法都完全采用端到端建模:训练模型直接从损坏的图像中回归干净的图像。例子包括图像去噪[42]、去模糊[31]和超分辨率[41]。相比之下,到目前为止还没有端到端的深度去雾模型,可以直接从模糊图像中回归出干净的图像。虽然乍一看这可能看起来很奇怪,但人们需要认识到雾霾本质上会带来不均匀的、与信号相关的噪声:雾霾引起的表面场景衰减与相机表面之间的物理距离相关(即像素深度)。这与大多数假设与信号无关的噪声的图像退化模型不同,在这种情况下,所有信号都会经历相同的参数化退化过程。因此,他们的恢复模型可以很容易地用一个静态映射函数来建模。这并不直接适用于去雾:退化过程因信号而异,并且恢复模型也必须是输入自适应的。

  现有的方法有着相同的信念,即为了从雾霾中恢复干净的场景,估计准确的介质传输图是关键[1]、[3]、[27]。大气光通过经验规则单独计算,根据物理模型恢复出干净的图像。尽管很直观,但这样的过程并不能直接测量或最小化重建失真。用于估计传输矩阵和大气光的两个单独步骤中的误差将累积并可能相互放大。结果,传统的单独管道导致图像恢复质量次优。

  2)与高级视觉任务的缺失环节:目前,去雾模型依赖于两套评估标准:(1)对于已知真实干净图像的合成模糊图像,通常计算 PSNR 和 SSIM 来测量恢复保真度; (2)对于真实情况未知的真实自然有雾图像,去雾结果唯一可用的比较是主观视觉质量。然而,与图像去噪和超分辨率结果不同,其视觉伪像的抑制效果是可见的(例如,在纹理和边缘上),最先进的去雾模型 [1]、[3]、[27] 之间的视觉差异通常很明显在全局照明和色调中,并且通常太微妙而无法分辨。

  一般图像恢复和增强被称为低级视觉任务的一部分,通常被认为是中级和高级视觉任务的预处理步骤。它在高层次的计算机视觉任务中,目标检测和识别的性能会随着图像质量的下降而下降,图像恢复和增强的质量也会对高层次的计算机视觉任务的性能产生很大的影响,然而,目前还没有将去雾算法和去雾结果与高层次的计算机视觉任务性能相联系的研究。

C. 我们的贡献

在本文中,我们提出了一体化去雾网络(AOD-Net),这是一种基于CNN的去雾模型,具有两个关键创新,以应对上述两个挑战:

  我们是第一个提出端到端可训练的去雾模型,它直接从模糊图像中生成干净的图像,而不是依赖于任何单独的和中间的参数估计步骤 。 AOD-Net是基于重新配制的大气散射模型设计的,因此保留了与现有工作相同的物理基础[3],[27]。然而,它建立在我们不同的信念之上,即物理模型可以以以“更端对端”的方式制定,其所有参数在一个统一模型中估算。

  我们是第一个定量研究去雾质量如何影响随后的高级视力任务的人,这项任务是比较去雾效果的新客观标准。此外,AOD-Net可以与其他深层模型无缝嵌入,构成一个管道,在模糊图像上执行高级任务,具有隐式的去雾过程。由于我们独特的一体化设计,这种管道可以从头到尾联合调整,以进一步提高性能,如果用其他深度去雾方法替代AOD-Net是不可行的[3],[27]。

AOD-Net在合成模糊图像上进行训练,并在合成图像和真实的自然图像上进行测试,实验结果表明AOD-Net在PSNR和SSIM方面优于现有的几种方法(见图1),而且视觉质量(见图2)。作为一个轻量级和高效的模型,AOD-Net使用单个GPU处理一个480 × 640图像的成本低至0.026秒。当与Faster R-CNN连接时[26],AOD-Net在提高模糊图像的对象检测性能方面明显优于其他去雾模型,当我们从端到端联合调整AOD-Net和Faster R-CNN的流水线时,性能裕度会得到更大的提升。

图1. AOD-Net和几种最先进的方法对Middlebury立体数据库中的800幅合成图像进行去雾的PSNR和SSIM比较[29],[28],[10]。结果证明AOD-Net提供了更忠实的干净图像重建。

图2. AOD-Net和几种最先进的方法在自然模糊图像上的视觉质量比较。请放大图以查看有界区域的细节差异。

  本文是对以前的会议版本[14]2的扩展。本文最显着的改进在于第四节,我们深入讨论了评估和增强对象检测的去雾,并介绍了联合训练部分,其中包含丰富的细节和分析。我们还对AOD-Net的架构进行了更详细和深入的分析(例如第III-D节)。此外,我们还包括更广泛的比较结果。

图3.使用(4)的AOD-Net和使用(3)的原始基线之间的视觉比较。图像来自第三节中的摄影真实的照片。

二、AOD-Net:一体式去雾模式

  在本节中,解释了所提出的 AOD-Net。我们首先介绍转换后的大气散射模型,AOD-Net 是基于该模型设计的。然后详细描述了AOD-Net的架构。

A. 物理模型和转换公式

大气散射模型一直是模糊图像生成的经典描述[19]、[21]、[22]:

其中I(x)是观察到的模糊图像,J(x)是要恢复的场景辐射率(即理想的“干净图像”)。有两个关键参数:A 表示全局大气光,t(x) 是传输矩阵,定义为:

其中β是大气的散射系数,d(x)是物体与相机之间的距离。我们可以将干净图像的模型(1)重写为输出:

  现有的工作如[27]、[3]遵循相同的三步过程:1)使用复杂的深度模型从有雾图像I(x)估计传输矩阵t(x); 2)使用一些经验方法估计A; 3)通过(3)估计干净图像J(x)。这样的过程会导致次优解决方案,不能直接最小化图像重建误差。 t(x)和A的单独估计在将它们组合在一起计算(3)时会导致累积甚至放大的误差。

  我们的核心思想是将两个参数t(x)和A统一为一个公式,即(4)中的K(x),并直接最小化像素域重建误差。为此,将(3)中的公式重新表示为下面的转换公式:

  通过这种方式,1/ t(x)和A都被集成到新变量K(x)中。b是默认值为1的恒定偏差。由于K(x)取决于I(x),因此我们的目标是构建一个输入自适应深度模型,其参数将随着输入模糊图像而变化,从而最大限度地减少输出J(x)和地面真实干净图像之间的重建误差。

B.网络设计

图4. AOD-Net的网络图和配置。

  所提出的AOD-Net由两个模块组成,如图4(a)所示:K估计模块,其从输入I(x)估计K(x),随后是干净图像生成模块,其利用K(x)作为其输入自适应参数来估计J(x)。
K估计模块是AOD-Net的关键组件,负责估计深度和相对雾度水平。如图4(b)所示,我们使用五个卷积层,并通过融合不同大小的滤波器来形成多尺度特征。在[3]中,第二层使用不同滤波器大小的并行卷积。[27]用精细尺度网络的中间层来缩放网络特征。受其启发,AOD-Net的“concat 1”层连接了“conv 1”和“conv 2”层的特征。类似地,“concat 2”连接了“conv 2”和“conv 3”层的特征;“concat 3”将来自“conv 1”、“conv 2”、“conv 3”和“conv 4”的那些连接起来。这样的多尺度设计捕获不同尺度的特征,并且中间连接也补偿了卷积过程中的信息损失。值得注意的是,AOD-Net的每个卷积层仅使用三个滤波器(三个滤波器的参数即权重不同,所以提取到的特征也不同)。因此,与现有的深度方法相比,AOD-Net的重量要轻得多,例如[3],[27]。在K估计模块之后,干净图像生成模块由一个逐元素乘法层和几个逐元素加法层组成,以便通过计算生成恢复的图像(4)。

  为了证明为什么联合学习t(x)和A很重要,我们比较了一个简单的基线,首先用传统方法[9]估计A,通过最小化重建误差来实现端到端的深度网络(综合设置见第三节)。如图3所示,基线被发现高估了A并导致过度曝光的视觉效果。由于t(X)和A的联合估计使它们能够相互改进,因此AOD-Net显然可以产生更逼真的照明条件和结构细节。在一体化公式中,对其他超参数(例如伽马校正)的不准确估计也可以被损害和补偿。

三、关于去雾的说明

A.数据集和实施

  我们通过(1)创建合成朦胧图像,使用来自室内NYU 2深度数据库[32]的具有深度元数据的地面实况图像。我们通过在[0、6; 1、0]之间均匀选择每个通道来设置不同的大气光A,并选择β[0、4; 0、6; 0、8; 1、0; 1、2; 1、4; 1、6 ].对于NYU 2数据库,我们取27,256张图像作为训练集,和3,170非重叠图像作为测试集A,我们还将来自Middlebury立体数据库的800幅全尺寸合成图像作为测试集B。此外,我们在自然模糊图像上进行测试,以评估我们的模型泛化能力。
    在训练过程中,使用高斯随机变量初始化权重。我们使用ReLU神经元,因为我们发现它比[3]提出的BReLU神经元更有效,在我们的特定设置中。动量和衰减参数设置为0.9和0.0001,我们使用8张图像的批量大小(480 × 640),学习率为0.001。我们采用了简单的均方误差(MSE)损失函数,很高兴地发现它不仅提高了PSNR,还包括SSIM以及视觉质量。
    AOD-Net模型需要大约10个训练时期才能收敛,并且通常在10个时期后表现良好。在本文中,我们已经训练了40个时期的模型。 还发现将范数约束在[-0.1,0.1]内对clip the gradient (防止梯度爆炸)很有帮助。 该技术在稳定复发网络训练方面很受欢迎[25]。

B.合成图像上的定量结果

  我们将所提出的模型与几种最先进的去雾方法进行了比较:快速可见性恢复(FVR)[35],暗通道先验(DCP)[9],边界约束上下文正则化(BCCR)[20],自动大气光恢复(ATM)[33],颜色衰减先验(CAP)[45],非局部图像去雾(NLD)[1],[2],DehazeNet [3]和MSCNN [27]。在以前的实验中,由于在真实的朦胧图像上测试时缺乏无雾地面实况,因此很少报告关于恢复质量的定量结果。我们合成的朦胧图像伴随着地面实况图像,使我们能够比较PSNR和SSIM方面的去雾结果。

表I

测试集A的平均PSNR和SSIM结果。

表II

测试集B的平均PSNR和SSIM结果。

表III

测试集 B 上去雾图像和真实图像的平均图像之间的平均 MSE。


  表I和III-B分别显示了测试集A和B的平均PSNR和SSIM结果。由于AOD-Net在MSE损失下进行了端到端优化,因此看到其比其他产品更高的PSNR性能并不奇怪。更吸引人的是,AOD-Net获得了比所有竞争对手更大的SSIM优势,尽管SSIM并不直接被称为优化标准。由于SSIM的测量超出了像素误差,并且众所周知更忠实地反映了人类的感知,我们开始好奇AOD-Net的哪一部分实现了这种一致的改进

  我们进行以下研究:测试集 B 中的每个图像被分解为平均图像和残差图像的总和。平均图像由采用相同平均值(图像上的平均 3 通道向量)的所有像素位置构成。很容易证明,两个图像之间的 MSE 等于它们的平均图像之间的 MSE 加上两个残差图像之间的 MSE。平均图像大致对应于全局照明并与 A 相关,而残差更多地关注局部结构变化和对比度等。我们观察到 AOD-Net 产生了类似的残差 MSE(在测试集 B 上取平均值)与DehazeNet 和 CAP 等几种竞争性方法相比。然而,AODNet 结果平均部分的 MSE 大大低于 DehazeNet 和 CAP,如表 III 所示。这意味着,由于我们在端到端重建损失下的联合参数估计方案,AOD-Net 可以更正确地恢复 A(全局照明)。由于人眼对全局照明的大幅变化肯定比对任何局部失真更敏感,因此难怪 AODNet 的视觉结果也明显更好,而其他一些结果往往看起来是不切实际的明亮。
  上述优势还体现在计算SSIM [39]的照度(l)项中,并部分解释了我们的强SSIM结果。SSIM增益的另一个主要来源似乎来自对比度(c)项。例如,我们随机选择五个图像进行测试,测试集B上AOD-Net结果的对比度平均值为0.9989,显著高于ATM(0.7281)、BCCR(0.9574)、FVR(0.9630)、NLD(0.9250)、DCP(0.9457)、MSCNN(0.9697)、DehazeNet(0.9076)和CAP(0.9760)。

C.定性视觉结果

图5.去雾合成图像的视觉结果。从左到右:模糊图像,DehazeNet结果[3],MSCNN结果[27],AOD-Net结果和地面实况图像。请放大该图以查看有界区域的细节差异。

  a)合成图像:图5显示了来自测试集A的合成图像的去雾结果。我们观察到,AOD-Net结果通常具有更清晰的轮廓和更丰富的颜色,并且在视觉上更忠实于地面实况。

图6.挑战自然图像的结果与最先进的方法进行了比较。               
  b)对自然图像进行分类:虽然使用室内图像合成进行训练,但发现ADO-Net具有泛化能力在室外图像上效果很好。我们在一些自然图像示例上对最先进的方法进行了评估,这些自然图像示例比[9],[8],[3]的作者发现的一般室外图像去雾更具挑战性。挑战在于高度杂乱的对象,精细纹理或照明变化的主导地位。如图6所示,FVR存在过度增强的视觉伪影。DCP,BCCR,ATM、NLD和MSCNN在一个或多个图像上产生不真实的色调,例如第二行的DCP、BCCR和ATM结果(注意天空颜色),或第四行的BCCR、NLD和MSCNN结果(注意石头颜色)。CAP、DehazeNet和AOD-Net的视觉效果最具竞争力,细节也很合理。但仔细观察,我们仍然发现CAP有时会模糊图像纹理,DehazeNet会使某些区域变暗。AOD-Net恢复更丰富、更饱和的颜色(比较第三和第四行结果),同时抑制了大多数伪影。

  c)白色风景自然图像:白色场景或物体一直是去雾的主要障碍。许多有效的先验,如[9],在白色物体上失败,因为对于与大气光颜色相似的物体,透射值接近于零。DehazeNet [3]和MSCNN [27]都依赖于精心选择的滤波操作进行后处理,这提高了它们对白色对象的鲁棒性,但不可避免地牺牲了更多的视觉细节。

  虽然AOD-Net没有明确考虑处理白色场景,但我们的端到端优化方案似乎在这里提供了更强的鲁棒性。图7显示了两个白色场景的模糊图像及其各种方法的去雾结果。很容易注意到DCP结果的不可容忍的伪影,特别是在第一行的天空区域。这个问题得到了缓解,但在CAP,DehazeNet和MSCNN结果中仍然存在,而AOD-Net几乎没有伪影。  白色对象,而MSCNN创建过度增强的相反伪影:参见猫头区域进行比较。AOD-Net能够消除薄雾,而不会引入虚假的色调或扭曲的对象轮廓。

图7.白色景物图像去雾结果。请放大数字以查看有界区域的细节差异。

  d)对无雾图像的伤害很小:虽然在有雾图像上训练,但AOD-Net被验证具有非常理想的属性,如果输入图像是无雾的,它对输入图像的负面影响很小。这证明了我们的K估计模块的鲁棒性和有效性。图8显示了来自Colorlines[8]的两个具有挑战性的干净图像的结果。

图8.无雾图像的影响示例。左栏:无雾图像。右栏:AOD-Net的输出。
  e)图像防光晕:我们在另一个图像增强任务上尝试AOD-Net,称为图像反光晕,没有重新训练。光晕是光线超出适当边界的扩散,在照片的明亮区域形成不希望的雾效果。与去雾相关,但遵循不同的物理模型,AODNet的反光晕结果也不错:请参见图9中的一些示例。

图9.防光晕增强示例。左栏:带有光晕的真实的照片。右栏:AOD-Net结果。

D.多尺度特征的有效性

 在本节中,我们专门分析了K估计模块的层间级联的有用性,它结合了不同大小的滤波器的多尺度特征。 我们认为,尽管经验性发现,当前的连接方式通过始终将几个连续的较低层连续馈入下一层,促进了从低层到高层的平滑特征转换。 为了进行比较,我们设计了一个基线:“conv1→conv2→conv3→conv4→conv5(K)”,它不涉及层间连接。 对于TestSet A,平均PSNR为17.0517 dB,SSIM为0.7688。 对于TestSet B,平均PSNR为22.3359 dB,SSIM为0.9032。 这些结果通常不如AOD-Net(除了TestSet B上的PSNR略高),特别是两个SSIM值都遭受显着下降。

E.运行时间比较

  AOD-Net的轻量级结构导致更快的去雾。我们从测试集A中选择50个图像供所有模型运行,在同一台机器上(Intel(R)Core(TM)i7-6700 CPU@3.40GHz和16 GB内存),没有GPU加速。所有模型的每个图像平均运行时间如表IV所示。尽管其他较慢的Matlab实现,比较DehazeNet(Pycaffe版本)和我们的[11]是公平的。结果表明AOD-Net的效率很高,每幅图像的成本仅为DehazeNet的1/10。

表IV 平均模型运行时间的比较(秒)。

四、恢复之后:评估和提升目标检测任务中的去雾

  高级计算机视觉任务,如目标检测和识别,涉及视觉语义,受到极大的关注[26],[43]。然而,这些算法的性能在很大程度上可能会受到实际应用中各种退化的影响。传统的方法在馈入目标任务之前采用单独的图像恢复步骤。最近,[40],[17]验证了恢复和识别步骤的联合优化将比传统的两阶段方法显著提高性能。然而,以前的工作[44]、[5]、[4]主要考察了噪声、模糊和低分辨率等常见退化对图像分类任务的影响和补救措施。据我们所知,还没有类似的工作来定量研究雾霾的存在会如何影响高水平视觉任务,以及如何使用联合优化方法来缓解其影响。

  我们研究了雾霾情况下的目标检测问题,作为高级视觉任务如何与去霾相互作用的例子。我们选择速度更快的R-CNN模型[26]作为较强的基准,并在合成图像和自然模糊图像上进行了测试。然后,我们将AOD-Net模型与更快的R-CNN模型连接起来,作为一个统一的流水线进行联合优化。从我们的实验中得出的一般结论是:随着雾霾变得越来越重,目标检测的可靠性变得越来越低。在所有雾霾条件下(轻度、中度或重度),我们的联合调整模型不断提高检测能力,超过了单纯的更快的R-CNN和非联合方法。

A. Pascal-VOC 2007与合成雾度的定量结果

  我们从Pascal VOC 2007数据集创建了三个合成集(称为Groundtruth)[6]:

重度(A = 1; β = 0、1),

中等雾度(A = 1; β = 0、06)

轻度霾(A = 1; β = 0、04)。

深度图通过[18]中描述的方法预测。每个集合被分成不重叠的训练集和测试集。首先,我们比较了五种没有任何网络微调的方案:

(1)naive FasterRCNN:使用在干净的Pascal-VOC 2007上预训练的模型直接输入模糊图像;(2)DehazeNet + Faster R-CNN:首先使用DehazeNet进行去雾,然后使用Faster R-CNN;(3)MSCNN + Faster R-CNN:首先使用MSCNN进行去雾,然后使用Faster R-CNN;

(4)DCP + Faster R-CNN:首先使用DCP进行去雾,然后使用Faster R-CNN;

(5)AODNet + Faster R-CNN:AOD-Net与Faster RCNN级联,没有任何联合调优。

  我们计算三个测试集的平均精度(MAP),如表V的前三行所示。清晰的Pascal-VOC2007测试集上的MAP是0.6954。我们可以看到,重度的雾霾使MAP退化了近0.18。通过在检测之前首先使用各种去雾方法来去雾,MAP得到了很大的改善。其中,DCP + Faster R-CNN速度更快,R-CNN的表现最好,在重度雾霾中提高了21.57%。在没有任何联合调整的情况下,AOD-Net +faster R-CNN的性能与MSCNN +faster R-CNN相当,但似乎比DCP + Faster R-CNN略差。

表V   PASCAL VOC 2007中模糊集的映射比较(F:FASTER R-CNN)

由于我们的一体化设计,AOD-Net + Faster R-CNN的流水线可以从端到端进行联合优化,以提高对雾霾图像的目标检测性能。我们分别为三个模糊训练集调整AOD-Net + Faster R-CNN,并将此调优版本称为JAOD-Faster R-CNN。我们在前35,000次迭代中使用0.0001的学习率,在接下来的65,000次迭代中使用0.00001的学习率,两者的动量都为0.9%,权重衰减为0.0005。由于这样的联合调谐,对于重霾情况,MAP从0.5794增加到0.6819,这表明了这种端到端优化的主要实力和我们独特设计的价值。为了进行比较,我们还在模糊数据集上重新训练了更快的R-CNN作为比较。我们使用0.0001的学习率来微调预先训练的更快的R-CNN(针对清晰的自然图像进行训练)。经过再训练以适应模糊的数据集,在重度雾霾下,再训练更快的R-CNN的MAP从0.5155增加到0.6756,但仍然比JAOD-faster R-CNN更差。

  此外,由于实际需要获得一个适用于任意雾霾级别的统一模型,因此我们生成包括各种雾霾级别的训练集,其中β从[0;0、1]中随机采样。我们在这个训练集上重新调整和评估JAOD-Faster R-CNN和Retrained Faster R-CNN,其结果在表V的最后一行进行比较。尽管两者的表现都略逊于他们训练和申请的“专用”对应物,但他们在所有三个雾霾级别上都表现得始终如一地良好,JAOD-Faster R-CNN的表现再次好于Retrained Faster R-CNN。图11显示了在不同的雾霾条件下,在JAOD-Faster R-CNN和Retrained Faster R-CNN之间每5,000次迭代的mAP比较。

图11.每5000次迭代的MAP在四个训练数据集的训练过程中。(a)训练集:重雾(重)。(B)训练集:中雾(中)。(c)训练集:轻雾(轻)。(d)训练集:多雾水平。(RF:Retrained Faster R-CNN,JA:JAOD-Faster R-CNN)

B.自然灾害图像的可视化结果

   图10显示了对Web源自然模糊图像上的目标检测结果的可视比较。六种方法是比较:(1) naive Faster-RCNN; (2) DehazeNet + Faster R- CNN ; (3) MSCNN + Faster R-CNN ; (4) AOD-Net + Faster R- CNN; (5) Fine-tuned Faster R-CNN. (6) JAOD-Faster R-CNN。
我们观察到,对于 Faster R-CNN,雾霾会导致遗漏检测、不准确的定位和不确定的类别识别。虽然AOD-Net + Faster R- CNN已经显示出比原始Faster-RCNN更明显的优势,但在JAOD-Faster R-CNN的结果中,性能得到了进一步的显著改进,这明显地超过了所有其他备选方案。

图10.自然模糊图像上的目标检测结果,置信度阈值为0.6,显示在去雾结果上(除了(a)(e)没有执行去雾;对于(f),我们将调谐的AOD-Net部分的输出可视化为去雾图像。)对于微调的Faster R-CNN和JAOD-Faster R-CNN,我们选择使用合成光雾训练的模型。

  请注意,AOD-Net+Faster R-CNN受益于两个方面的联合优化:AOD-Net本身联合估计所有参数,整个管道从端到端联合调优低级别(消除干扰)和高级别(检测和识别)任务。端到端管道调整由AOD-Net独一无二地实现,AOD-Net被设计为到目前为止唯一的一体化除霾模型。

  C.谁在真正提供帮助:是特定于任务的除霾网络,还是只是添加了更多参数?

  虽然JAOD-Faster R-CNN可以说是如上所示的表现最好的,但一个问题可能会自然而然地出现:这仅仅是因为AOD-Faster R-CNN使用了比(Retrained)faster R-CNN更多的参数吗?在这一部分中,我们展示了添加额外的层和参数,而不是特定于任务的去雾设计,并不一定提高雾霾中目标检测的性能。

  我们设计了一种新的基线,称为Auto-Faster R-CNN,它用一个普通的卷积自动编码器取代了JAOD-Faster R-CNN中的AOD-Net部分。该自动编码器具有与AOD-Net完全相同的参数,由五个卷积层组成,其结构类似于K-估计模块。我们使用与AOD-Net相同的训练协议和数据集,为去霾任务预先训练自动编码器,并将其与更快的R-CNN连接起来进行端到端调整。如表六所示,自动更快的R-CNN的性能不能与JAOD-Faster R-CNN相提并论,甚至比微调的更快的R-CNN更差。回想一下,[26]验证了直接向更快的R-CNN添加额外的层并不一定会改善一般清洁图像中的目标检测性能。我们的结论在这个模糊的案例中是一致的。

 表六 基于PASCAL VOC 2007的合成模糊集与Auto-Faster R-CNN的映射比较

  此外,应该注意的是,尽管JAOD-Faster R-CNN在更快的R-CNN之前添加了AOD-Net,但由于AOD-Net的轻量化设计,复杂性并未增加太多。对于(Retrained)faster R-CNN,每个图像的平均运行时间为0.166秒,对于JAOD-Faster R-CNN,使用NVIDIA GeForce GTX TITAN X GPU为0.192秒。

五、讨论和结论

本文提出了AOD-Net,这是一种通过端到端的CNN直接重建无霾图像的一体化管道。我们在合成雾霾图像和自然雾霾图像上,使用客观(PSNR,SSIM)和主观标准,将AOD-Net与各种最先进的方法进行了比较。大量的实验结果证实了AOD-Net的优越性、健壮性和有效性。此外,我们还首次研究了AOD-Net如何通过联合管道优化来提高对自然雾霾图像的目标检测和识别性能。可以观察到,我们的联合调整模型不断提高在雾霾存在的情况下的检测,超过了朴素的更快的R-CNN和非联合方法。然而,如上所述,去雾化技术与从图像进行深度估计高度相关,通过结合深度先验知识或精心设计的深度估计模块,AOD-net的性能仍有改进的空间。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值