FSRNet: End-to-End Learning Face Super-Resolution with Facial Priors 2018 CVPR
图1:不同超分辨率方法的可视化结果
1.引言
主要思想
本文的主要思想是通过人脸图像的特殊性,从人脸图像中提取几何先验信息来提高超分辨率的效果,同时,为了生成更逼真的人脸图像,作者还提出了“人脸图像超分辨率生成对抗网络”文章提出,可以利用特定的面部先验知识来获得更好的超分辨面部图像。
本文贡献
1、首次使用人脸几何先验来优化人脸超分问题,并且实现了方便的端到端的训练模式。
2、2种人脸几何先验信息被提出,人脸关键点facial landmark heatmaps 和人脸解析分割图parsing maps。
3、提出的FSRNet在将未对齐和非常低分辨率(16×16像素)的人脸图像超分辨时可以达到8倍的放大系数,并且扩展的FSRGAN进一步生成了更逼真的人脸图像
4、对于人脸超分辨率,人脸对齐和面部解析作为新的评价标准。进一步证明,该方法可以解决传统的视觉感知度量方法的不一致性。
2、网络结构
论文提出了使用人脸对齐和人脸解析,作为超分的一种新颖的评价方式。解决了传统视觉评价标准的非连续性问题。
基本FSRNet 由两个部分组成:粗SR网络、精细SR网络,其中精细SR网络又包括精细SR编码器、先验估计网络和精细SR解码器。具体网络结构如下图所示。
FSRNet的网络结构,标号解释‘k3n64s1’表示内核大小为3×3,特征映射号为64,步长为1。
2.1粗糙的SR网络(第一阶段)
我们先将模糊的图像输入粗 SR 网络里恢复一个粗略的HR 图像,motivation:直接从输入的LR图像中估计人脸关键点和面部解析图是很困难的 ,使用粗SR网络可以帮助缓解先验估计的困难。
2.2精细的SR网络(第二阶段)
在精细SR网络中,将粗糙的HR图像发送给两个分支,即先验估计网络和精细的SR编码器中,分别用于估计人脸先验和提取特征,然后解码器联合使用这两个分支的结果来恢复精细的HR图像
(1)先验信息估计网络
文章提出在先验信息估计网络中使用一个 HourGlass 结构来估计面部landmark 的 heatmap 和解析图。为了有效整合各种尺度的特征并保留不同尺度的空间信息,HourGlass block 在对称层之间使用 skip-connection 机制。
(2)精细的SR编码器
文章使用 residual block 进行特征提取。考虑到计算的开销,先验信息的特征会降采样到 64×64。将输入从1281283变化为64*64。
(3)精细的SR解码器
解码器把先验信息和图像特征组合为输入。
具体而言,文章提出的网络的整体结构如下:首先构建粗的 SR 网络来生成粗的 HR 图像。然后,粗的 HR 图像会被送到两个分支去:
- 精细的SR 编码器,提取图像特征。
- 先验信息预测网络,估计 关键点热图和解析图。
最终,图像特征和先验信息会送到一个精细的 SR 解码器来恢复 HR 图像。
3.损失函数
FSRNet的损失函数
损失函数就是(真实的高分辨图像-粗糙的恢复图像)+(真实的高分辨图像-精细的的恢复图像)+(真实的人脸先验分布-估算的人脸先验分布)
FSRGan的损失函数
FSRGan在FSRNet的基础上,增加了GAN的判别loss:
感知loss:
FSRGAN的最终损失函数为:
4、相关实验
先验信息对人脸超分辨率的影响
从图中可以看到用了先验信息的模型有提高,设定不同的landmark数,以及使用局部解析图或者全局解析图。得到的性能比较结果(上图右半部分)。
通过上面结果的比较,得出以下结论:
1.解析图比landmark heatmap含有更多人脸图像超分辨的信息,带来的提升更大。
2.全局的解析图比局部的解析图更有用
3.landmark数量增加所带来的提升很小
估计得到的先验信息的影响
Baseline_v1:完全不包含先验信息
Baseline_v2:包含先验信息,但不进行监督训练
通过图中对比,得出以下结论:
1.即使不进行监督训练,先验信息也能帮助到SR任务,可能是因为先验信息提供了更多的高频信息。
2.越多先验信息,越好。
3.最佳性能为25.85dB,但是使用ground truth信息时,能达到26.55dB。说明估计得到的先验信息并不完美,更好的先验信息估计网络可能会得到更好的结果。
与其他方法的性能比较
定性比较。前两个例子是海伦,其他的 celebA
以PSNR/SSIMs为指标比较结果
对齐(NRMSE)/解析(IOU)的定量比较