Deep Face Super-Resolution with Iterative Collaboration between Attentive Recovery and Landmark Estimation
文章地址:https://arxiv.org/pdf/2003.13063.pdf
项目地址:https://github.com/Maclory/Deep-Iterative-Collaboration
本文与SPSR(cvpr2020)是同一作者,清华大学自动化学院。
人脸超分辨率英文可表述为:Face Super-Resolution 或 Face hallucination
abstract 1、简介 2、相关工作:
人脸sr依赖于脸部的先验信息,这些先验信息包括了人脸图像的特征点和构成图等。但是目前的先验信息都是通过低分辨率的人脸图像得到,导致先验信息不准确。
脸部图像的外形轮廓可以作为先验知识,从而来更好的完成修复。
目前先验信息存在的问题:
1、先验信息也是由低分辨率的图像得来的,导致其不准确。
2、大多数方法将先验信息和图像恢复视为一个多任务问题,将先验信息通过concat的方式简单的进行融合。
本文提出了一种深度迭代合并的网络。具体工作如下:
1、设计了一个两分支的网络结构。一个分支为了人脸的恢复,另一个分支用于人脸特征点的计算。两个分支互相逐步促进。有这个想法是因为:the SR ranch can generate high-fidelity face images with the guidance of accurate landmark maps and the alignment branch also benefits a lot from high-quality input images。
2、设计了注意力融合模块来将人脸图像特征点进行融合,而不是简单的concat。
相关工作中介绍了:基于深度学习的FSR方法、使用了图像先验信息的FSR、和通用的SR。作者还带了一嘴:循环网络在FSR中没被充分利用,所以值得试一试。
3、方法:
设计了一种深度相互迭代的网络结构,迭代并渐进的计算SR图像和人脸的特征点。并设计了一个注意力同和模块。采用对抗损失来增加图像的细节信息。
3.1 Deep Iterative Collaboration
该部分介绍了网络的整体结构图,如下图所示:
人脸SR分支的公式:
对齐分支:
网络有N代组成,在每一代都加上损失,与SRFBN一样。
损失函数可以表示为:
公式中的和分别原始的高分辨率图像和原始的特征点图。
3.2 Attentive Fusion Module
现有的方法将人脸先验信息和SR特征进行级联,并且将其视为多任务学习。
作者认为不同的面部 部位应该被单独的恢复,从而获取更好的实验效果。
假设人脸特征点图中有k个通道,这k个通道表示k个的特征。将特征点图分为P个子集,每个子集包含的人脸特征分别为:左眼、右眼、鼻子、嘴巴、下巴。问题是作者凭什么就能分组将每个子集的通道相加起来。然后再经过softmax变换,如下式所示。
得到图3中的左侧图的attention map Mp。
3.3 目标函数
判别器的损失:
生成器的损失:
其中
其中的感知损失为:
感知损失采用了pretrained face recognition model, LightCNN。感知损失还要另外加上这个网络?
将公式12整个作为DICGAN的损失。
当以PSNR为驱动时,训练得到的模型被称作DIC,相应的参数如此设置:
4、实验
采用的人脸数据集为:CelebA和Helen。然后采用openFace的方式来检测人脸图像的特征点,并作为特征点的ground truth。
作者在获取LR图像的时候,依然采用的是bicubic的方式。
与State-of-the-Arts相比:
而且还和文献5一样采用脸部对齐测试来测量SR的质量:
测试了迭代次数给最终效果带来的影响:
测试了Attentive Fusion模块的影响:
消融实验,主要测试了是否使用特征点和特征点融合方式对效果的影响: