Super-FAN论文阅读

Super-FAN论文提出了一种结合人脸关键点定位和超分辨率的端到端系统,利用GANS提升低分辨率人脸图像的分辨率并进行对齐。通过改进的残差网络结构和对抗训练,它在处理真实世界低分辨率人脸图像时表现出色,尤其在LS3D-W和WiderFace数据集上取得了领先结果。论文采用了像素损失、感知损失、对抗损失和热图损失来优化网络训练。
摘要由CSDN通过智能技术生成

Super-FAN:Integrated facial landmark localization and super-resolution of real-world low resolution faces in arbitrary poses with GANS

这篇论文主要做出了五点贡献:

  1. 提出Super-FAN:一个同时提高人脸分辨率并进行人脸对齐的端到端系统,主要通过热图回归(Heatmap Regression)整合子网络进行人脸关键点定位,然后进入基于GAN的超分辨率处理网络,并将其并入到一个新的热图损失中。
  2. 展示了联合训练两个网络在处理任意人脸姿势的生成图像以及真实世界的低分辨率图像上的优势
  3. 提出了一个改进的残差网络结构来得到较好的超分辨率图像
  4. 首次提交了处理LS3D-W数据集各种人脸姿势的结果,并在超分辨率和人脸对齐方面做出了领先的结果。
  5. 首次在真实世界的低分辨率人脸图像(WiderFace数据集)上做出了良好的视觉效果

作者提出的网络结构主要由三个连接在一起的子网络构成:第一个是超分辨率网络,用于提升LR图像的分辨率;第二个是一个判别器网络,用于区别得到的超分辨图像和原始LR图像;第三个是FAN网络,是一个在超分辨率图像上进行人脸关键点定位的人脸对齐网络。其中超分辨率网络和判别器网络构成一个GAN模型,如下图所示:

网络结构

超分辨率网络(Super-resolution network)

受到"C. Ledig et al,Photo-realistic single image super-resolution using a generative adversarial network. In CVPR, 2017."中提出的SR-ResNet的启发,作者在SR-ResNet的基础上提出了一个新的残差网络结构用于超分辨率,两者网络结构对比如下:

框架比较

残差块的组成分布:Per-block layer distribution

顺应SR-ResNet的设计,输入和输出的分辨率分别为 16 × 16 16\times 16 16×16 64 × 64 。 64\times 64。 64×64根据上图,可以看到SR-ResNet中有16个残差块作用的分辨率 16 × 16 16\times 16 16×16的数据上,1个残差块作用的分辨率为 32 × 32 32\times32 32×32的数据,1个残差块作用的分辨率为 64 × 64 64\times 64 64×64的数据,即16-1-1结构,可将其推广为 N 1 − N 2 − N 3 N_1-N_2-N_3 N1N2N3结构。如上图所示,作者的改进是将网络结构调整为12-3-2结构,增加了对 32 × 32 32\times 32 32×32 64 × 64 64\times 64 64×64维特征的块处理,之所以这样调整的原因是作者希望通过增加残差块来处理较高维特征,从而增强高分辨率图像上的细节,尤其是处理场景复杂的图像。

建立残差块结构:Building block architecture

作者实验了一些残差块的变体,最终选择的残差块结构为如下结构:

残差块结构

其中包含了两个 3 × 3 3\times3 3×3的卷积层,卷积层后面都接着一个batch normalization层。另外,作者通过实验发现SR-ResNet使用的PReLU激活函数相对于ReLU激活函数并没有多少改进,因此,在作者的模型中,整个网络结构都使用ReLU作为激活函数。

去除长连接:On the “long” skip connection

SR-ResNet中,将16个作用于原始分辨率图像的残差块分配到一个大块中,然后在该大块的第一块和最后一块增加一个skip连接,试图以此来改进梯度流。但是作者认为,每一层都是在处理上一层的表示特征,是一个渐进的过程,低层次特征会影响到上层特征的处理,而且低层次特征的注入对整体效益几乎没有特别好的影响。因此,作者选择去除这个skip connection。

像素和感知损失(Pixel and perceptual losses)

像素损失(Pixel loss):给定一个低分辨率图像 I L R I^{LR} ILR(分辨率为 16 × 16 16\times16 16×16),其对应一个高分辨率图像 I H R I^{HR} IHR(分辨率为 64 × 64 64\times64 64×64),使用像素化MSE损失来最小化两个图像之间的距离,形式化定义如下:
l p i x e l = 1 r 2 W H ∑ x = 1 r W ∑ y = 1 r H ( I x , y H R − G θ G ( I L R ) x , y ) l_{pixel}=\frac{1}{r^2WH}\sum_{x=1}^{rW}\sum_{y=1}^{rH}\left(I_{x,y}^{HR}-G_{\theta_G}(I^{LR})_{x,y}\right) lpixel=r2WH1

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值