[文献阅读]SSID-KD:基于知识蒸馏的半监督图像去雨

Semi-Supervised Image Deraining Using Knowledge Distillation

原文和代码链接:

Semi-Supervised Image Deraining Using Knowledge Distillation | IEEE Journals & Magazine | IEEE Xploreicon-default.png?t=N2N8https://ieeexplore.ieee.org/document/9829841cuiyixin555/SSID-KD: The Repo of Semi-supervised Single Image Deraining (github.com)icon-default.png?t=N2N8https://github.com/cuiyixin555/SSID-KD一、引言

在下雨的室外环境中拍摄的图像通常会出现严重的退化,例如,雨痕会使拍摄场景中的人和物体变得模糊。随着雨水的长期积累,形成雨幕效应,不仅降低了人类的感知能力,而且在后续任务如目标检测、语义分割等方面也会产生明显的性能下降。因此,单幅图像去雨为中高层视觉任务奠定了基础,在目标检测、户外识别、雨天自动驾驶等方面都有广泛的应用。

一般情况下,雨天图像O可以表示为背景图像B与雨纹层R的线性和,O = B + R。图像去雨的目的是清晰地去除雨纹,同时恢复背景图像的纹理细节。

在本文中,为了解决现有图像去雨方法的关键问题,作者提出了一种基于知识蒸馏的半监督图像去雨方法(SSID-KD),以及一种新的去雨骨干网络。考虑到现实世界的降雨图像中没有真实的干净图像,脱轨模型的训练不能通过逐像素的损失函数来解决,作者建议采用知识蒸馏的方法来增强合成图像与现实世界降雨图像的高维雨纹特征的一致性。

二、主要贡献

1、提出了一种使用知识蒸馏的简单而有效的半监督去雨方法,可以更好地利用现实世界的雨天图像,从而有利于脱绘模型的泛化能力。

2、提出了MFFB和PFFB两个新模块,以更好地提取雨纹特征。这两个组件被组织在一个多尺度的框架中,作为图像脱轨的骨干网络。

3、对合成和真实雨天图像进行了广泛的实验,以验证所提出的SSID-KD优于监督和半监督脱除方法。

三、SSID-KD

所提出的SSID-KD的整体结构和主层配置如图3所示,其中教师模型和学生模型具有相同的体系结构,即三层金字塔结构。每一层的输入以2的速率进行下采样,这是通过max-pooling实现的。每层采用多尺度编解码器架构,更好地提取雨纹。不同的特征尺度对应不同数量的特征提取模块。输入雨天图像的尺度大小直接影响雨天图像的去雨能力。因此,为了保证足够的雨纹信息,作者在满尺度下预留了20个单元块,在半尺度下预留了8个单元块,在四分之一尺度下预留了2个单元块,单元块之间连接紧密。此外,不同层之间的特征会相互交互,以弥补因缩小而造成的信息损失,这被称为偏移连接,用蓝色箭头表示。作者还在同一层中采用橙色箭头表示的跳过连接,以防止反向传播中的梯度消失。与原始编码器-解码器中传统的卷积运算不同,SSID-KD的骨干由两个关键模块组成,即金字塔特征融合块(PFFB)和多尺度特征融合块(MFFB),具体如下所示。

1、金字塔特征融合块(Pyramid Feature Fusion Block)

为了增强去化能力的鲁棒性,特征图的多尺度学习是关键步骤。在本文中,设计了一种金字塔特征融合块(Pyramid Feature Fusion Block, PFFB),它结合了上采样和下采样的处理,在一个单元内学习不同尺度的特征。PFFB不仅可以将卷积转换为更深层次的特征,而且可以保持原有的浅层次特征。PFFB的结构如图4所示,它包含三个阶段。

在第一阶段,对给定的雨痕特征R以2的速率进行下采样。

其中Conv j i(·)表示步长为j的i×i卷积运算,Leaky ReLU(·)表示参数为0.2的激活函数,ResBlock(·)由两个3 × 3卷积层之间的激活函数组成。最后,采用Max Poolk对R进行下采样,其中k = 1,2,4,8。在第二阶段,对R1、R2、R4、R8不同尺度下的特征R进行4层卷积,并激活LeakyReLU。这个过程表述为:

 

其中i = 1,2,4,8。在最后阶段,将每个Ri上采样到原始输入的尺度,并将这些结果与输入特征进行1 × 1卷积后拼接,可以描述为:

 

其中Up(·)是线性插值运算,Concat(·)表示拼接运算。结果,得到了恢复到原始比例尺的特征图,其中包含了不同比例尺的特征信息。

与JDNet模型不同的是,对于相邻的两个尺度,先对小尺度特征进行上采样,并将其输出与后一个尺度特征进行级联。因此,四个不同的尺度特征是逐渐拼接的,直到恢复到原来的大小,而JDNet提出的scale - aggregation block只使用了一个卷积层,直接聚合了四个尺度特征,导致他们的整个网络中缺乏小尺度特征。

2、多尺度特征融合块(Multi-Scale Feature Fusion Block)

Yang等首先提出的扩张卷积网络,随后许多类似的结构,如SRNet、MSRB,都得益于多尺度特征提取。但是,这些结构在核扩张卷积较大的情况下会导致特征失真,特别是当扩张卷积核的大小设置为5或更大时。

为了解决上述问题,作者提出了如图5所示的MFFB。

构造了一个双分支网络,其中不同分支采用不同的卷积核速率。一个3 × 3卷积的分支用于提取细尺度特征,另一个5×5卷积的分支用于提取粗尺度特征。因此,不同尺度内核的输出可以相互融合,以防止特征图失真。对于给定的条纹特征输入R, MFFB可以定义为:

 

其中i表示3 × 3卷积的输出,j表示5 × 5卷积的输出,最后使用残差策略输出特征。

四、基于知识蒸馏的半监督图像去雨

SSID-KD由两个步骤组成:

(1)在配对的合成降雨和地面真相清洁图像上训练教师脱轨模型;

(2)通过同时利用合成和现实世界的降雨图像来训练学生脱轨模型。

在第一培训阶段,教师网络的训练是一个有监督的学习过程。简单采用负SSIM作为教师去雨模型的训练损失:

 

其中 ̄BT和Bgt分别是脱轨结果和相应的ground-truth。

在第二训练阶段,首先用教师模型的参数对学生网络进行初始化。然后,通过加强中间教师特征和中间学生特征,对学生网络进行微调,其中一些半监督损失是利用真实雨纹特征的关键,包括KL损失,DC损失和总变差损失(TV-Loss)。最后,训练学生模型的总体损失函数公式为:

其中权衡参数经经验设置为λ1 = λ2 = λ3 = 1 × 10−6。

1、KL损失

SSID-KD采用编码器-解码器框架。嵌入Vsyn和嵌入Vreal将分别从教师和学生编码器层输出。因此,Vsyn是Vreal的伪标签,将Vreal的雨纹特征转换并聚合到高维向量中,计算KL损失。该过程可以描述为:

通过该过程可以强制执行真实和合成雨纹的一致性。

2、DC损失

此外,考虑到暴雨图像中可能存在的雾霾现象,作者建议在学生模型的去雨图像上进一步增加暗通道约束。对于给定的图像L,暗通道的值定义为:

其中x和y为像素坐标,Ic表示第c个颜色通道,N (x)为以x为中心的图像补丁。对于r个雨纹,一个像素的最大值为1。因此,应用maxpooling来获取patch的最小值,并计算到零向量的最小距离。对于给定的合成条纹特征Rs和真实条纹特征Rr,其处理过程可以描述为:

其中N s max和N r max分别为Rs和Rr中像素的最大值。暗通道像素可以通过减去1得到。最后,计算暗通道值与0之间的距离。

3、TV损失

为了获得更好的去雨质量,采用Total variation Loss来强制第二训练阶段生成与干净图像具有相同统计属性的图像。TV损失公式的具体实现如下:

其中∇h和∇V分别表示水平微分算子和垂直微分算子。

五、实验结果

1、定量比较

量化评价结果如表一、表二所示。与半监督脱轨方法相比,SSID-KD产生的结果具有最高的PSNR和SSIM值,而与监督脱轨方法相当。

 

2、定性比较

图6展示了来自Rain200H数据集的一些合成示例。Syn2Real不能去除雨痕。虽然其他评估模型得到的结果比Syn2Real更好,但在恢复的图像中仍然存在一些伪影或雨痕残留。相比之下,SSID-KD产生了更好的去雨结果,它在视觉上接近于地表真实图像。

作者还从图7中的实际数据集中提供了一些示例,以证明所提算法的有效性。注意到其他方法不能有效地去除雨纹,而所提出的模型产生了更好的结果。

3、计算效率比较

作者将本方法的推理时间与目前最先进的去雨方法进行比较。从表III可以看出,作者的SID运行时间在监督脱轨方法中处于中间位置。对于SSID-KD的推理效率,它的计算成本与SID相同,因为它们共享相同的网络骨干网。与半监督脱轨方法相比,SSID-KD比SIRR快,比Syn2Real慢Syn2Real是一个计算成本低的轻量级模型,但是它的脱网性能远不如表I和表II所示的其他方法。总之,作者的SID和SSID-KD可以在脱机性能和计算效率之间提供更好的平衡。

4、评价目标检测和语义分割

以目标检测和语义分割为例,进一步评价了两种训练去雨方法在高计算视觉任务中应用于雨天图像处理时的优劣。从图8和图9可以看出,SSID-KD去除的图像更加清晰,检测和分割效果都比其他方法好得多。

5、消融实验

(1)网络连接形式分析

网络工作结构包括许多多尺度连接和跳跃式连接。因此,针对不同的连接形式,作者将分别进行无跳过连接(no-SC)、跳过连接(SC)、带拼接的多尺度连接(MC-Concat)实验。结果如表VII所示。

(2)层数分析

由于网络层数也是一个关键因素,作者进一步评估了它对图像去雨的影响。进行了三次实验,无小尺度层进行补偿(N = 1),采用2次下采样层进行补偿(N = 2),均采用4次下采样层和2次下采样层进行补偿(N = 3),可以看到N = 3时的效果最好,这也证明了所提出的小尺度补偿策略是有益的。

(3)单元块分析

在整个网络结构中,采用PFFB块结合MFFB块作为卷积单元。为了验证单个块的有效性,在单元块上进行了两个实验,如表IX所示。PFFB可以帮助我们的模型学习多尺度特征,从而在单独处理时获得更高的PSNR和SSIM,而MFFB采用不同尺度的卷积核来增强模型的拟合能力,有利于真实世界图像的处理质量。实验结果验证了PFFB和MFFB对脱轨性能的显著提高。

(4)损失函数分析

本文提出的半监督方法由总变分(TV)、暗信道(DC)和KL损失组成。可视化示例和NIQE值如图10所示。DC损失和KL损失可以很好地利用高维嵌入Vsyn和Vreal相互作用,纠正合成雨纹分布的随机性,而TV损失可以保证脱轨图像的纹理不会在像素的水平和垂直梯度中发生扭曲。

(5)知识蒸馏分析

我们分析了知识蒸馏的效果,结果如图11所示。可以看出,本文提出的知识蒸馏(即使用学生网络进行训练)能够获得更清晰的脱去结果,而仅在合成数据集上进行训练的教师网络不能完全去除雨纹。这表明所提出的知识蒸馏方法有助于提高脱轨性能。

(6)局限性

该方法在处理一些雨痕太大、太长情况时效果不佳。如图12所示,雨天图像中包含了大量细长且较大的条纹,这些条纹在三个真实训练数据集中都没有出现。

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值