MNCEFH论文阅读笔记

题目:Deep CNN Denoiser and Multi-layer Neighbor Component Embedding for FaceHallucination

中文:深度CNN去噪器和多层相邻组件嵌入的脸部幻觉

在这里插入图片描述

摘要

  • 当前大多数的面部幻觉方法,无论是基于浅层学习还是基于深度学习,都试图借助训练集来学习低分辨率(LR)空间和高分辨率(HR)空间之间的关系模型。他们主要关注通过基于模型的优化或判别性推理学习对图像进行先验建模。但是,【缺点】当输入LR面很小时,所学的先验知识将不再有效,其性能将急剧下降。为了解决这个问题,本文提出了一种通用的人脸幻觉方法,该方法可以融合基于模型的优化和判别推理。特别是,为了利用基于先验的模型,借助图像自适应的拉普拉斯正则化,将深度卷积神经网络(CNN)降噪器优先级插入到超分辨率优化模型中。另外,通过将人脸图像划分为人脸成分并以多层邻居嵌入的方式进行人的幻觉,我们进一步开发了高频细节补偿方法。实验表明,所提出的方法对于微小的输入LR面都能获得有希望的超分辨率结果。

背景:为了解决常规方法中,当输入LR面很小时,先验知识将不再有效,其性能将急剧下降。
方法:融合基于模型的优化和判别推理,将深度卷积神经网络(CNN)降噪器先验插入到超分辨率优化模型中。另外划分人脸为多个组件,并且提出高频细节补偿方法。一种基于深度CNN去噪器的基于先验的全局人脸重建方法
结论:实验表明,所提出的方法对于微小的输入LR面都能获得有希望的超分辨率结果。

引言

  • 幻觉是指借助HR / LR训练对从观察到的低分辨率(LR)面部图像重建具有精细细节的高分辨率(HR)面部图像的技术[Baker and Kanade,2000]。它是一种针对特定领域的图像超分辨率方法,它聚焦于人脸,可以超越成像系统的局限性,从而为犯罪分子的识别提供了非常重要的线索。由于高度不确定的限制和可能的噪音,人脸超分辨是一个严重不适的问题,需要事先提供信息以规范解决方案空间。在数学上,用y表示观察到的LR人脸图像,并通过最小化由保真项和通过权衡参数λ平衡的正则项组成的能量函数,可以得出目标HR人脸图像x。
    在这里插入图片描述

  • 根据Ω(x)先验信息的来源,可以将超分辨率技术分为两类:基于模型的优化方法和判别性推理学习方法。

  • 前者是尝试去解决等式 (1)的问题。通过一些耗时的迭代优化算法,而后者旨在通过在包含LR和HR样本对的训练集上通过损失函数来学习LR和HR图像之间的关系,因此,基于模型的优化方法(如LRTV [Shiet等人,2015]和NCSR [Donget等人,2013])非常通用,可通过指定矩阵H来处理各种图像变形模型。相反,这些区分性推理学习方法受到专业图像降级模型H的限制。代表性的歧视性学习方法包括LLE [Changet等人,2004],ScSR [Yanget等人,2010],ANR [Timofteet等人,2013],SRCNN [Donget等人,2016],VDSR [Kimet等人,2016],以及一些专门用于人脸图像的方法,即TDN [Yu and Porikli,2017],UR-DGN [Yu and Porikli,2016],CBN [Zhuet等,2016]和LCGE [Songet等,2017]。由于他们的端到端训练策略,在给定LR输入图像的情况下,他们可以有效地直接预测目标HR图像。

  • 为了克服基于模型的优化方法和区分性推理学习方法同时利用各自优点的缺点,最近,人们提出了一些方法来借助可变分裂技术(例如ADMM优化或正则化)分别处理保真度项和正则项项。作者:Denoising(RED)[Romanoet等,2017]。一种基于模型的超分辨率方法尝试迭代重建HR图像,以使其降级的LR图像与输入的LR图像匹配,而推理学习则尝试通过机器学习来训练降噪器,使用LR和HR图像对。因此,将复杂的超分辨率重建问题分解为一系列图像降噪任务,再加上易于处理的二次范数正则化最小二乘优化问题。

  • 在许多实际的监视场景中,摄像机通常远离感兴趣的对象,并且系统的带宽和存储资源是有限的,这通常会导致产生非常小的面部图像,即很小的面部。尽管上述方法是通用的,并且可以用于处理各种图像降级过程,但是当采样因子很大(即输入的LR脸部图像很小)时,该方法的性能将非常差。学习的降噪器先验不能充分利用人脸的结构,因此幻觉的HR脸部仍然缺乏详细的功能,如图1的第二列所示。通常,基于深度卷积神经网络(CNN)降噪器先验的脸部幻觉方法会生成初级脸部结构相当好,但是无法恢复很多高频内容。为了处理非常小的输入图像的瓶颈,已经提出了一些基于深度神经网络的方法[Yu and Porikli,2016; Yu and Porikli,2017]。

  • 在本文中,我们通过深层CNN去噪器多层邻居成分嵌入(MNCE)开发了一种新颖的面部幻觉方法。在[Zhanget et al。,2017]的工作启发下,我们采用CNN来学习除噪器,然后将其插入基于模型的优化中,从而共同受益于基于模型的优化和区分推理的优点。在此步骤中,我们可以通过此Deep CNNdenoiser预测看起来平滑的中间结果。为了增强细节特征,我们进一步提出了通过MNCE的残差补偿方法。 Itextend NCE进入多层框架,以逐步缓解LR和HR空间之间的不一致性(尤其是当因子很大时),从而补偿第一步中尚未弥补的缺失细节。图2显示了所提出算法的流程。

  • 这项工作的贡献概括如下:

    • (i)我们提出了一种新颖的两步面部幻觉方法,该方法结合了基于模型的优化和区分推理学习的优点。
    • 此方法使得有可能从不同来源(即一般图像和面部图像)中学习先验知识,以同时正规化面部卤化。
    • (ii)为了弥补缺失的细节特征,提出了采用多层嵌入的邻域分量的方法,可以逐步优化和改善幻觉的结果。它提供了一种方案来缓解由于一对一的映射而导致的LR空间和HR空间之间的不一致。

相关工作

  • 已经进行了多种尝试来将高级去噪器先验合并到一般的逆问题中。在[Danielyanetal。,2012]中,BM3D去噪[Dabovet等,2007]适应了图像去模糊的反问题。 [Zhanget等人,2014]后来将其扩展到其他图像恢复问题。最近,Zhang等人[Zhanget等人,2017]充分利用了深度CNN判别学习,并将其结合到基于模型的优化方法中,以解决逆问题。它具有强大的先验建模能力。但是,当放大倍数较大时,这些基于降噪器先验的超分辨率方法无法重建判别特征。因此,需要残差人脸补偿以改善超分辨结果。

  • Liu等人[Liuetal。,2001]首先提出了两步法,其中第一步使用基于PCA的参数模型生成全局人脸图像,然后采用基于MRF的局部非参数模型来补偿丢失的脸部细节。 。已经提出了基于流形对准的两步法[Huanget等,2010]来预测对准的公共空间中的目标HR人脸图像。在[Songet等人,2017]中,提出了组件的生成和增强。他们首先将LR测试图像分为五个面部成分,并通过多个并行的CNN获得基本结构,然后通过成分增强方法预测细颗粒的面部结构。

方法

  • 我们的精确管道(如图2所示)按照以下两个步骤工作。首先,我们基于深度CNN模型构造了一个判别式去噪器。获得降噪器后,可以通过深度CNN去噪和带图像自适应拉普拉斯正则化器的RED迭代解决超分辨率重建问题[Milanfar,2013]。该步骤的输出(一个中间HR面部图像)缺少详细的面部特征(如图1的第二列所示)。其次,我们提出了一种基于MNCE的残差补偿算法,以逐步预测丢失的详细残差人脸图像。

3.1 Deep CNN Denoiser Prior for Global FaceReconstruction

  • 为了解决(1)的问题,提出了一些基于可变变量分割技术的方法,如ADMM优化[Boydet al。,2011; Afonsoet等人,2010年]或基于RED的框架[Romanoet等人,2017年]。由于后者在理论上比ADMM优化采用了更好的方法,因此在本文中,我们将RED用于处理存储任务(1)。在RED中,正则化器Ω(x)由去噪器定义

3.2基于多层邻居分量嵌入(MNCE)的残差补偿

  • 我们假设相似的LR内容将共享相似的潜在HR内容。使f(y)表示预测函数,x−f(y)表示高频残差图像。因此,我们可以通过局部正则化邻域嵌入算法,利用高频残差信息构造HR人脸x′,
    在这里插入图片描述

在这里插入图片描述

图1:所提方法的8倍幻觉结果
步骤1:通过Deep CNN先验生成全局中间HR人脸
步骤2:高频人脸细节补偿
GT:地面真理

在这里插入图片描述

图2:拟议的人脸幻觉算法的主要步骤
步骤1:基于深度CNN去噪器的全局人脸重建
步骤2:基于MNCE的残差补偿为了方便起见,这里我们仅显示两层NCE
在这里插入图片描述
图3:基于邻域组件嵌入的残差补偿示意图。
(a)输入图像。
(b)面部组成面具。
(c)五个面部组成。
(d)在图像和剩余流形空间上嵌入邻居。
(e)构造的残差分量。
(f)残差脸部图像。
(g)幻觉的脸

  • 学习一下残差网络。是不是残差加上对应的人脸就会得到更加精细的人脸?能否借鉴?

在这里插入图片描述

图4:所提出方法的不同步骤的面部幻觉结果。 (a)输入。 (b)步骤1。 (c)第2层-第1层。 (d)Step2-Layer2。(e)Step2-Layer3。 (f)GT
在这里插入图片描述
图5:所提出方法的不同步骤的PSNR(dB),SSIM和FSIM结果请注意,我们分别通过将它们的最大值除以将这三个索引缩放为[0,1]
在这里插入图片描述
图6:使用不同的全局人脸重建方法时的视觉比较。 (a)输入。 (b)Bicubic + MNCE。 (c)DeepDenoiser + MNCE。 (d)GT
在这里插入图片描述
图7:在正面输入面附近使用最新技术进行8倍幻觉的比较。请放大以查看差异。
在这里插入图片描述
图8:在非正面输入面上使用最新技术进行的8倍幻觉比较。请放大以查看差异。
在这里插入图片描述
图9:使用(a)PSNR(dB),(b)SSIM和(c)FSIM的图像质量统计数据。横轴使用PSNR,SSIM或FSIM标记分数,而纵轴标记分数大于横轴上标记分数的半透明HR脸部图像的百分比
在这里插入图片描述
图10:使用低质量监控人脸图像的不同方法的真实人脸幻觉结果。

结论

  • 在本文中,我们提出了一种新颖的两步幻觉框架,用于处理微小的人脸图像。它共同考虑了基于模型的优化和判别推理,并提出了一种基于深度CNN去噪器的基于先验的全局人脸重建方法。然后,通过多层邻居组件嵌入,将全局中间HR脸逐渐嵌入到HR流形空间中。对大规模人脸数据集和真实世界图像的实证研究证明了所提出的人脸幻觉框架的有效性和鲁棒性。手动或通过其他算法将输入人脸对齐。在未来的工作中,我们需要考虑人脸的对齐和解析,以产生未知和任意姿势的LR人脸图像[Zhuet al。,2016; Chenet等,2018; Yuet等,2018年]。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值