6/17 Deep Face SR with Iterative Collaboration between Attentive Recovery and Landmark Estimation

CVPR2020 Deep Face SR with Iterative Collaboration between Attentive Recovery and Landmark Estimation

Attention恢复与关键点估计之间具有迭代协作的深度人脸超分辨率

Abstract

现有方法无法充分利用先验知识,因为人脸先验信息(例如关键点 component map)是由低分辨率或粗略的超分辨图像估计的,这可能是不准确的,因此会影响超分性能。

在这篇文章中,作者提出一种在这两个循环网络之间进行迭代协作的deep 人脸超分方法,这两个网络分别用于人脸超分和关键点估计。

在每个循环中,超分模块利用关键点的先验知识帮助超分,反过来超分后的图像预测更加准确的关键点。因此这两个过程之间的迭代信息交互逐渐提高彼此性能。

设计了一个新的注意力融合模块以加强关键点的指导,分别产生人脸component,并集中聚集以更好地修复,where facial components are generated individually and aggregated attentively for better restoration.

Introduction

在现有的FSR方法中已经使用了人脸先验。  

Dense correspondence field密集对应字段在[46]中用于捕获人脸空间配置信息。

[46] Shizhan Zhu, Sifei Liu, Chen Change Loy, and Xiaoou Tang.Deep cascaded bi-network for face hallucination. In ECCV,
pages 614–630. Springer, 2016.

在[39]中预测了人脸组件的热图,以提供人脸组件的定位以提高SR质量。

[39] Xin Yu, Basura Fernando, Bernard Ghanem, Fatih Porikli, and Richard Hartley. Face super-resolution guided by facial
component heatmaps. In ECCV, pages 217–233, 2018.

 端到端训练的网络[5]同时引入面部关键点热图和解析图,以提高恢复性能。 

[5] Yu Chen, Ying Tai, Xiaoming Liu, Chunhua Shen, and Jian Yang. Fsrnet: End-to-end learning face super-resolution with
facial priors. In CVPR, pages 2492–2501, 2018.

但是,这种方法存在一些局限性。 

一方面,由于人脸先验预测是应用于低质量LR输入图像或粗糙的SR图像,因此它们难以估计准确的先验信息。 因此,给定不精确的先验,SR的预测可能是错误的。

另一方面,大多数方法只是将超分和先验预测优化为多任务学习的问题,并通过简单的串联操作合并先验信息。 

 However,such guidance is not direct and clear enough since the structural variations of different components may not be fully captured and exploited.

但是,由于不同组件的结构变化可能无法完全捕获和利用,因此这种指导不够直接和清晰。 

因此,应该探索更有效的利用人脸先验的方案

在本文中提出了一种用于人脸超分辨率的深度迭代协作方法,以解决上述问题。

 首先,我们设计了一个新的框架,其中包括两个分支,一个分支用于人脸恢复,另一个分支用于关键点估计。 

与以前的方法不同,让人脸超分和对齐过程逐渐相互促进。 该想法的灵感来自SR分支可以在准确的关键点图的引导下生成高保真人脸图像,而对齐分支也从高质量的输入图像中受益 。

为了实现这个目标,我们设计了一个递归的体系结构,而不是非常深的生成SR模型,同时设计了一个用于面部对齐的递归沙漏网络,而不是传统的堆叠式沙漏网络[25]。 在每个循环步骤中,每个分支的先前输出将在后续步骤中送到另一个分支,以便两个分支相互协作以实现更好的性能。 而且,在两个分支中实施的反馈方案都提高了整个框架的效率。

【疑问】递归沙漏网络相比传统的堆叠式沙漏网络有什么好处?

其次,我们提出了一个新的注意力融合模块,以整合关键点信息,而不是进行串联操作。具体来说,我们利用估计的关键点map生成多个注意力图,每个注意力图都显示了一个面部关键部位的几何结构。 受益于特定于组件的注意力机制,每个组件的特征都可以单独提取,这可以通过组卷积轻松实现。

【疑问】简单的将预测的先验进行concat有什么缺点?组卷积可以提取特定component的特征,这是如何实现的呢?

3 方法

在人脸超分辨率中,目的是恢复输入的LR人脸图像的人脸细节,并获得SR结果。 我们设计了一个深层的迭代协作网络,该网络可以根据输入的LR图像逐步并逐步估算出高质量的SR图像和关键点。 为了增强SR和对齐过程之间的协作,本文设计了一种注意力融合模块,该模块有效地集成了两种信息源。 最后,我们采用对抗性损失来监督框架的训练,并生成具有高保真细节的增强型SR人脸。

3.1. Deep Iterative Collaboration

给定LR面部图像ILR,关键点对于恢复过程很重要。 但是,由于缺少许多细节,因此通过LR面进行的先前估算是不可靠的。 此类信息可能无法提供有关SR效果的准确指导。 因此,我们的方法通过如图2所示的迭代协作方案来缓解此问题。在此框架中,人脸恢复和关键点定位同时并递归执行。 如果输入人脸的质量更高,则可以通过准确的关键点获得更好的SR图像,因为可以更正确地估计关键点。 这两个过程可以互相促进,并逐步达到更好的性能。 最后,通过足够的步骤,我们可以获得准确的SR结果和关键点热图。

The architecture of the recurrent SR module follows the feedback block in [21]
[21] Zhen Li, Jinglei Yang, Zheng Liu, Xiaomin Yang, Gwanggil Jeon, and Wei Wu. Feedback network for image superresolution. In CVPR, pages 3867–3876, 2019.

循环SR分支G包括低分辨率特征提取器G1,递归块GR和高分辨率生成层G2。  GR包括一个注意融合模块和一个循环SR模块。 类似于SR分支,递归对齐分支包括一个预处理模块A1,一个递归沙漏模块AR和一个后处理模块A2。 对于第n步,其中n = 1,...,N,SR分支通过使用对齐结果和前一步n-1的反馈信息分别表示为来恢复SR图像InSR。 此外,LR输入在每个步骤中也很重要。 因此,由G1提取的LR特征也被送到递归块中。 因此,可以通过以下方式来计算人脸SR过程:

其中U表示上采样操作。 同样,人脸对齐分支将前一步中的循环特征和A1从SR图像InSR中提取的SR特征用作更准确地估计关键点的指导,如下所示:

经过N步,我们得到{InSR} N n = 1和{Ln} N n = 1,其中随着n的增加,输出变得更加令人满意。 最初,上一步没有递归特征和地关键点。 因此,我们使用一个额外的相似SR模块,该模块仅在第一步之前将LR功能作为输入,以获取f0GR作为后续步骤的初始化。 同时,我们使来初始化人脸对齐分支。

为了实现更好的优化,我们对N个步的每个输出施加了损失函数。通过这种方式,可以在每个步骤中加强SR和对齐方式,并通过相互监督逐步纠正不正确的因素。 此处,像素损失函数定义如下:

我们在最后一步中使用SR图像作为最终输出,可以将其表示为

3.2. Attentive Fusion Module
当SR网络失去人脸关键点提供的指导时,由于SR捕捉人脸结构轮廓的能力减弱,因此SR质量严重下降。

在现有方法中,利用面部先验知识的直接方法是将面部先验与SR特征连接起来,并将整个优化过程视为多任务学习的问题。

However, facial structures may not be fully exploited since features of different facial parts are usually extracted by a shared network. Hence the specific structural configuration priors existing in different facial components may be neglected by the networks.Therefore, different facial parts should be recovered separately for better performance. [3] has exploited the global
interdependency of facial parts by reinforcement learning.However, the sequential patch reconstruction cannot utilize
facial priors explicitly and efficiently, which also limits the specialized generation for different facial components.
【疑问】人脸结构没有被充分利用,因为用shared网络提取不同人脸part的特征。因此,不同人脸part的特定结构先验可能被网络忽略。所以,不同的人脸part应该被分开恢复。文章[3]通过强化学习利用人脸part的全局依赖。但是顺序的patch重建并没有显示和有效的利用人脸先验,这同样限制了不同人脸part的特定生成

[3] Qingxing Cao, Liang Lin, Yukai Shi, Xiaodan Liang, and Guanbin Li. Attention-aware face hallucination via deep reinforcement learning. In CVPR, pages 690–698, 2017. 2,4

不同地,我们通过一个新的具有结构意识的注意力融合模块实现了上述目标,从而充分利用了关键点L的指导。我们假设每个地标热图都有K条通道,指示K个关键点的位置。 关键点可以分为P个子集,包括左眼,右眼,鼻子,嘴巴和下巴。 将每组中的通道加在一起以形成相应面部组件的热图,表示为{Cp} P p = 1,如图3所示。

这样做而不是直接融合学习到的关键点的原因有两个方面:

(1)我们明确强调每个面部的局部结构以进行差异恢复; 

(2)通过分组过程大大减少了通道数量,从而提高了框架的效率。

然后,我们可以通过softmax函数沿着这些热图的通道维数来计算P个相应的注意力图,如下所示:

(x,y)表示注意力图Mp的空间坐标

代替使用针对不同面部组件的多个模型,应用组卷积来生成单个特征fp。 流程图如图3所示。为了使每组卷积集中在相应的部分上,我们将注意力融合定义为:

其中,fFusion表示所提出的注意力融合模块的输出特征。注意力融合模块是循环SR分支的一部分,因此可以以递归方式将梯度反向传播到SR和对齐分支。 此外,关键点估计不仅可以通过施加在递归对齐分支上的损失来监督,而且可以通过注意力融合模块对FSR结果的修改来进行监督。

为了训练面向PSNR的模型DIC,我们将λAdv=λPerc = 0。 然后使用完全损失来获得感知模型DICGAN

 

【疑问】DIC-CL的SR性能仍远不及DIC方法。 原因是串联关键点图是对SR的隐性知识并且在提供足够的指导方面受到限制。 不同的是,我们的DIC方法不仅整合了结构知识,而且还显示导致特定于component的特征提取,以实现更具照片感的SR图像。 因此,结果证明了该方法的优越性。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


 

  • 2
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 5
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值