FSRNet: End-to-End Learning Face Super-Resolution with Facial Priors

最新推荐文章于 2022-07-14 21:08:52 发布

0-∞

最新推荐文章于 2022-07-14 21:08:52 发布

阅读量867

点赞数 2

分类专栏：论文阅读

本文链接：https://blog.csdn.net/qq_37122156/article/details/114696748

版权

论文阅读专栏收录该内容

20 篇文章 0 订阅

订阅专栏

FSRNet: End-to-End Learning Face Super-Resolution with Facial Priors 2018 CVPR

在这里插入图片描述

图1：不同超分辨率方法的可视化结果

1.引言

主要思想
本文的主要思想是通过人脸图像的特殊性，从人脸图像中提取几何先验信息来提高超分辨率的效果，同时，为了生成更逼真的人脸图像，作者还提出了“人脸图像超分辨率生成对抗网络”文章提出，可以利用特定的面部先验知识来获得更好的超分辨面部图像。

本文贡献
1、首次使用人脸几何先验来优化人脸超分问题，并且实现了方便的端到端的训练模式。
2、2种人脸几何先验信息被提出，人脸关键点facial landmark heatmaps 和人脸解析分割图parsing maps。
3、提出的FSRNet在将未对齐和非常低分辨率（16×16像素）的人脸图像超分辨时可以达到8倍的放大系数，并且扩展的FSRGAN进一步生成了更逼真的人脸图像
4、对于人脸超分辨率，人脸对齐和面部解析作为新的评价标准。进一步证明，该方法可以解决传统的视觉感知度量方法的不一致性。

2、网络结构

论文提出了使用人脸对齐和人脸解析，作为超分的一种新颖的评价方式。解决了传统视觉评价标准的非连续性问题。
基本FSRNet 由两个部分组成：粗SR网络、精细SR网络，其中精细SR网络又包括精细SR编码器、先验估计网络和精细SR解码器。具体网络结构如下图所示。
在这里插入图片描述

FSRNet的网络结构，标号解释‘k3n64s1’表示内核大小为3×3，特征映射号为64，步长为1。

2.1粗糙的SR网络（第一阶段）

在这里插入图片描述
我们先将模糊的图像输入粗 SR 网络里恢复一个粗略的HR 图像，motivation：直接从输入的LR图像中估计人脸关键点和面部解析图是很困难的，使用粗SR网络可以帮助缓解先验估计的困难。

2.2精细的SR网络（第二阶段）

在精细SR网络中，将粗糙的HR图像发送给两个分支，即先验估计网络和精细的SR编码器中，分别用于估计人脸先验和提取特征，然后解码器联合使用这两个分支的结果来恢复精细的HR图像
（1）先验信息估计网络
文章提出在先验信息估计网络中使用一个 HourGlass 结构来估计面部landmark 的 heatmap 和解析图。为了有效整合各种尺度的特征并保留不同尺度的空间信息，HourGlass block 在对称层之间使用 skip-connection 机制。
（2）精细的SR编码器
文章使用 residual block 进行特征提取。考虑到计算的开销，先验信息的特征会降采样到 64×64。将输入从1281283变化为64*64。
（3）精细的SR解码器
解码器把先验信息和图像特征组合为输入。

具体而言，文章提出的网络的整体结构如下：首先构建粗的 SR 网络来生成粗的 HR 图像。然后，粗的 HR 图像会被送到两个分支去：

精细的SR 编码器，提取图像特征。
先验信息预测网络，估计关键点热图和解析图。
最终，图像特征和先验信息会送到一个精细的 SR 解码器来恢复 HR 图像。

3.损失函数

FSRNet的损失函数
在这里插入图片描述

损失函数就是（真实的高分辨图像-粗糙的恢复图像）+(真实的高分辨图像-精细的的恢复图像)+（真实的人脸先验分布-估算的人脸先验分布）

FSRGan的损失函数
FSRGan在FSRNet的基础上，增加了GAN的判别loss：
在这里插入图片描述
感知loss：

FSRGAN的最终损失函数为：

4、相关实验

先验信息对人脸超分辨率的影响
在这里插入图片描述

从图中可以看到用了先验信息的模型有提高，设定不同的landmark数，以及使用局部解析图或者全局解析图。得到的性能比较结果（上图右半部分）。
通过上面结果的比较，得出以下结论：
1.解析图比landmark heatmap含有更多人脸图像超分辨的信息，带来的提升更大。
2.全局的解析图比局部的解析图更有用
3.landmark数量增加所带来的提升很小

估计得到的先验信息的影响
在这里插入图片描述

Baseline_v1：完全不包含先验信息
Baseline_v2：包含先验信息，但不进行监督训练

通过图中对比，得出以下结论：
1.即使不进行监督训练，先验信息也能帮助到SR任务，可能是因为先验信息提供了更多的高频信息。
2.越多先验信息，越好。
3.最佳性能为25.85dB，但是使用ground truth信息时，能达到26.55dB。说明估计得到的先验信息并不完美，更好的先验信息估计网络可能会得到更好的结果。

与其他方法的性能比较
在这里插入图片描述