Dual-Path Deep Fusion Network for Face Image Hallucination 2020 TNNLS
题目:用于人脸图像超分的双路径深度融合网络
1、引言
主要思想
在过去的十年中,越来越多的超分方法被开发出来。大多数现有的基于浅层学习的工作都致力于利用正则化技术从候选对象中找到最相似的结果。虽然上述方法是非常有效的,但约束线性映射不足以处理复杂的SR任务。
基于深度学习的方法倾向于学习从低分辨率(LR)图像到高分辨率(HR)图像的整体外观映射,而没有考虑人脸图像的特殊外观结构。因此,它们不能产生精细的面部纹理,但往往会使视觉效果变得模糊。
随着基于深度学习的人脸超分方法性能的提高,各种人脸先验(面部形状、面部标志性热图或解析图)被用于描述整体和部分面部特征,使得生成超分辨率人脸图像的成本昂贵且费力
。
为了解决上述问题,我们提出了一种简单而有效的解决方案,从给定的微小LR样本重建高质量的人脸图像,并在不增加辅助人脸先验的情况下获得最先进的性能。我们构建了一种简单而有效的双路径深度融合网络(DPDFN)
,用于人脸图像的超分辨率,不需要额外的人脸先验知识,它通过两个单独的分支学习全局人脸形状和局部人脸成分。
本文贡献
1、我们提出了一种有效的人脸图像幻觉DPDFN,它通过GMN和LRN两个子网络分别学习人脸的全局特征和局部特征(即人脸外观和面部成分)。与以前的先验引导的面部幻觉技术相比,DPDFN提供了一种更省力的解决方案,无需额外的面部先验即可生成高质量的超分辨率人脸图像。
2、通过结合递归计算和残差学习,设计了一种新的RDRB来捕捉全局纹理相关性
,在空间维度上融合了丰富的信息和相关特征以刻画整体面部轮廓。
3、我们提出了一个局部加固子网(LRN),以通过对LR和HR空间之间的区域指定映射关系进行单独建模来增强面部组件的精细表示
。此外,我们设计了一种新颖的MRB,可充分利用局部面部特征并有效融合多尺度特征
。
背景:各种面部先验用于描述整体和部分面部特征,使得生成超分辨率人脸图像的成本昂贵且费力。
方法:双路径深度融合网络(DPDFN),无需人脸先验。DPDFN由三个部分组成:全局存储子网络(GMN),局部增强子网络(LRN)和融合与重建模块(FRM)
结论:在公开面部数据集上进行面部超分的大量实验,以及在VGGface和SCFace数据集上进行面部识别,均显示出优于最新方法的显着优势。
2、网络结构
给出一个LR人脸图像ILR,我们的目标是重建出类似于IHR的高质量的人脸图像ISR。如图1所示,我们提出的DPDFN由三部分组成:两个单独的分支子网(GMN和LRN)以及FRM。
对于GMN网络来说,由于递归结构能够有效地捕捉空间序列间的纹理相关性,因此我们将递归计算和残差学习相结合,通过利用空间维度上的重复相关模式来学习人脸整体特征。以原始LR脸部图像ILR作为输入,GMN网络获得FGMN
虽然FGMN可以为描述全局人脸特征提供更多的潜在线索,但人脸成分的局部细节对于人脸图像重建也很重要。所以我们设计了一个局部强化子网络(LRN)来具体表示局部人脸成分,它关注的是LR到HR空间的基于面片的映射关系,而不是整个人脸。更具体地说,我们对ILR下采样的小块图像块进行特征提取,分别对LR空间和HR空间之间的基于块的映射关系进行建模。
最后在网络的尾部,FRM被用来整合全局和局部人脸特征(FGMN,FLRN),并生成相应的高质量人脸图像ISR。
图1 建议的DPDFN框架。DPDFN由三个部分组成:全局存储子网络(GMN),局部增强子网络(LRN)和融合与重建模块(FRM)。
图2 建议的RDRB结构,RDRB包含三个原始残差单元和一个ConvLSTM单元。
图3 建议的MRU(MRB)结构。MRB由几个MRU组成(在本文工作中,数量设置为3)。
3、损失函数
为了得到我们所提出的SR模型的最优解,我们定义了一个稳健的损失函数来训练DPDFN为:
其中α表示DPDFN中的模型参数,ρ(IHR−ISR)=((IHR−ISR)2+ε2)1/2表示Carbonnier惩罚函数。补偿参数ε被经验地设置为10−3。
4、实验结果
消融实验
1、对GMN和LRN的评估:
由于DPDFN由两个基本子网(GMN和LRN)组成,我们通过依次去除它们来构建两个比较模型,即DPDFN_NGMN和DPDFN_NLRN,以显示基于基线DPDFN的不同嵌入方式对性能的影响。
此外,为了说明我们提出的RDRB和MRB对特征提取和表示的效果,我们还构建了另外三个比较模型,即DPDFN_GDN、DPDFN_LDN和DPDFN_LGDN。DPDFN_GDN表示通过用密集块替换GMN中的RDRB来表示模型。在DPDFN_LDN中,MRB被密集块取代。通过替换这两部分,我们得到了DPDFN_LGDN模型。
定量评估结果如表I所示。从这些分数可以看出,完全SR模型DPDFN的性能优于不完全模型。此外,与基于密集连接的SR模型(DPDFN_GDN、DPDFN_LDN和DPDFN_LGDN)相比,我们提出的DPDFN仍然具有很强的竞争力。
图4 为了验证所提出的核心模块的有效性,可视化结果。与不完全模型(DPDFN_NGMN和DPDFN_NLRN)相比,DPDFN可以生成更清晰、更可信的人脸轮廓和更精细的人脸细节,与地面真实情况一致。此外,DPDFN具有更好的重建性能,与基于密集连接的模块(DPDFN_GDN、DPDFN_LDN和DPDFN_LGDN)相比,生成的结果具有更精细的面部特征和清晰的轮廓。
综上所述,所提出的双路径融合结构可以提供更多的局部和全局信息,有利于人脸SR,从而提高视觉效果。
2、对Block and Unit Depth的评估:
如前所述,RDRB和MRB是我们提出的GMN和LRN子网的基本块,这对我们提出的SR模型DPDFN的重建性能有更大的贡献。由于基本块(简称B)和基本单元(简称U)的深度直接决定了DPDFN的结构,因此DPDFN在重建过程中起着重要的作用。在这一部分中,我们通过在GMN和LRN中构建不同B和U的多个SR模型来检验它们对重建质量的影响。
对于表2,随着B和U的增加,性能略有提高。对于表3,模型越深入,性能越差。最终为了优化DPDFN的配置,GMN和LRN中的块数和单元数被设置为(B=6,U=3)和(B=3,U=3)。
与最先进方法的比较
在CelebA数据集上按8的比例重建结果。比较方法包括以前的基于CNN的方法(SRCNN和VDSR)和典型的基于对抗学习的算法(SRGAN,GLN)和URDGN。
在LFW数据集上的重建结果(尺度为8)。比较方法包括以前的基于CNN的方法(SRCNN和VDSR)和典型的基于对抗性学习的算法(SRGAN,GLN和URDGN)。