论文学习笔记(10):FAN: Feature Adaptation Network for Surveillance Face Recognition and Normalization

在这里插入图片描述

摘要

本文提出了一种特征自适应网络(FAN)以实现监控人脸识别与人脸规范化(face normalization)。其中人脸规范化主要用于图像超分。
然而现有的人脸超分方法往往需要pixel-to-pixel的成对训练数据,但这在实际情况系往往是找不到的。文本所提出的FAN可以利用成对及不成对的数据,将特征分解为身份特征和身份无关特征并适用于身份特征的分布(?)。
除此之外,文章还提出了一种随机尺度增广(RSA)方法以学习分辨率鲁棒的身份特征(优于现有的固定尺度增广方法)。

一、介绍

现有的人脸超分方法很难应对监控人脸问题,因为这些方法往往忽略了身份信息且需要成对的训练数据。
本文探究的问题是在给定监控人脸下学习鲁棒的身份特征信息,同时利用这些特征增强面部细节以及中间姿势、光照、表情(neutral PIE)
所谓的“人脸规范化”与传统的人脸超分目标相同,但其不需要使得原始LR图像与超分图像满足pixel-tp-pixel关系。
FAN与现有的人脸超分方法比较,其优点在于:

  1. 同时适用于人脸识别与超分两项任务
  2. 训练集数据可以成对也可以不成对,而传统超分需要成对的训练数据
  3. FAN在提高图像分辨率的同时,也对背景信息及PIE(姿势、光照、表情)做了增强

二、相关工作

2.1 人脸识别

现状:

  1. 在传统人脸识别数据集上表现良好的方法无法处理无约束的LR图像(eg:监控人脸图像)
  2. 解决监控人脸问题的一种常见方法:为LR和HR图像学习一个统一的特征空间
    同时,保留身份信息的人脸超分方法也是一个主流方向:

2.2 人脸规范化

三、特征自适应网络

3.1 框架概述

本工作的目标为:

  1. 分辨率鲁棒的人脸识别
  2. 身份保留和分辨率增强的人脸规范化

本工作的步骤保留两个:

  1. 绿色部分 :解离特征学习
  2. 橙色部分 :特征自适应

特征解离已经成功的应用于人脸识别和人脸合成,解离表示不仅对人脸合成具有生成性,还对人脸识别具有判别性。
因此,在工作的第一个stage,本文采用HR人脸图像训练特征解离架构,将人脸图像encode为身份特征和非身份特征,并将这两种特征组合起来生成所需的HR图像;在工作的第二个stage,本文将解离架构的所有模型固定,对于HR-LR输入图像(paired或unpaired)实现了特征自适应。从而可以学习一个LR特征encoder,用于从LR人脸图像中提取具有判别性的身份特征。

同时,为了实现分辨率鲁棒的人脸识别,本文提出了Random Scale Augmentation(RSA)以克服固定尺度增广产生的相关缺点。
在这里插入图片描述

3.2 特征解离学习

特征解离框架包括五个模块:

模块
身份特征encoderEnc_H
非线性特征encoderEnc_Z
decoderDec
线性分类器FC
判别器Dis

具体身份特征解离过程分为两步:

  1. 使用HR及下采样LR得到的LR图像以及标准softmax lossM-L2正则化训练一个state-of-art模型,将训练好的feature encoder称为Enc_H,其将在后面的步骤中保持不变,通过输入的HR图像 x h x_h xh提供编码后的身份特征:
    f h = E n c _ H ( x h ) f_h=Enc\_H(x_h) fh=Enc_H(xh)
  2. 第二步,通过对抗训练及图像重建学习非身份特征:
    z h = E n c _ Z ( x h ) z_h=Enc\_Z(x_h) zh=Enc_Z(xh)

与先前的特征解离方法不同的是:

  1. 对于 z h z_h zh的损失函数,区别于最小化身份分类损失(由于是无界的因此不稳定?),本文提出加强非身份特征,将其均匀的分类到所有的身份上以保证身份的不相关性(?):
    L z = ∣ ∣ F C ( z h ) − y z ∣ ∣ 2 2 L_z=||FC(z_h)-y_z||_2^2 Lz=FC(zh)yz22
    这个损失的梯度只用于更新Enc_Z而不更新FC。
    解离特征被用于生成人脸图像 x h ′ = D e c ( f h , z h ) x'_h=Dec(f_h,z_h) xh=Dec(fh,zh),其目标是恢复输入: L d e c = ∣ ∣ x h ′ − x h ∣ ∣ 2 2 L_{dec}=||x'_h-x_h||_2^2 Ldec=xhxh22。由于 f h f_h fh对人脸识别具有判别性,因此在第一步中需要将 f h f_h fh中的非身份部分丢弃。图像重建将鼓励 E n c Z Enc_Z EncZ编码非身份特征 z h z_h zh,这是在恢复输入图像时对 f h f_h fh的补充。
  2. 本文使用了身份相似度正则化以及基于GAN的判别器损失以加强身份相似度及提高生成人脸的视觉质量。对于身份损失,本文采用Enc_H提取特征并正则化特征间的距离: L i d = ∣ ∣ E n c _ H ( x ; h ) − f h ∣ ∣ 2 2 L_{id}=||Enc\_H(x;_h)-f_h||_2^2 Lid=Enc_H(x;h)fh22;采用二元交叉熵损失作为判别器损失。
  3. 本文还从身份特征中重构了人脸图像: x h 0 ′ = D e c ( f h , 0 ) x'_{h0}=Dec(f_h,0) xh0=Dec(fh,0),0表示和 z h z_h zh相同维度的0向量。由于非身份部分为0,因此期望的生成图像应该是保留身份且规范化的人脸(没有变化的非人脸因素eg:PIE)。由于没有ground-truth目标图像,本文分别采用身份损失及GAN损失,如下图所示。

在这里插入图片描述
这样仅由身份特征重建的好处在于:

  1. 鼓励仅用身份特征合成身份保留人脸,从而防止了非身份特征编码身份信息(?),以得到更好的解离效果。
  2. Dec仅从身份特征重建身份保留人脸的能力有助于面部细节的加强(?)

3.3 成对及不成对数据的特征自适应

只使用HR训练Dec的原因是为了使Dec生成HR图像,提高人脸规范化的分辨率。然而这个框架并不适用于LR输入。因此,文章提出了一种特征自适应方案来学习LR编码器Enc_L,用于LR人脸识别和规范化。这里的目标是学习一种能够处理不同分辨率输入人脸的特征提取器

3.3.1 用于训练的paired data

对于传统方法,paired data指的就是HR图像以及通过固定几种下采样因子得到的对应LR图像,但这种数据不能很好地模拟现实监控图像中的各种分辨率情况。
为了解决这个问题,本文提出了一种Random Scale Augmentation(RSA),即将给定的HR图像下采样到随机的分辨率,将这样得到的LR图像及HR图像称为像素上对应的paired data。

3.3.2 用于训练的unpaired data

unpaired data表示的是来自一个个体的HR图像和LR图像,但并没有像素上的对应。
在这里插入图片描述
如上图所示,根据T-SNE图像展示的特征分布,可以看出paired data和unpaired data间的分布是完全不同的。
FAN可以通过将解离的特征进行人脸规范化解决unpaired data的问题。
在这里插入图片描述
再根据上图所示,FAN的架构中同时实现像素级别和图像级别的相似性监督

  1. 具体来说, x l x_l xl是随机下采样得到的或来自unpaired数据的LR图像,这里采用bicubic插值使其与 x h x_h xh的维度相当,然后通过 E n c _ L Enc\_L Enc_L提取身份特征 f l f_l fl,通过正则化使其与对应的HR输入图像的解离特征相似(像素级别):
    L e n c = ∣ ∣ E n c _ L ( x l ) − E n c _ H ( x h ) ∣ ∣ 2 2 L_{enc}=||Enc\_L(x_l)-Enc\_H(x_h)||_2^2 Lenc=Enc_L(xl)Enc_H(xh)22
    这种特征级别的正则化使得在解离特征空间,LR图像的特征适应于HR图像的特征。
  2. 在第一阶段, D e c Dec Dec被训练通过输入HR图像的身份及非身份特征,生成HR图像。如果KaTeX parse error: Undefined control sequence: \- at position 4: Enc\̲-̲L可以encode身份保留的特征,那么这种特征就可以代替原始的HR图像身份特征,以恢复输入的HR图像。因此,本文提出了在恢复后的人脸图像空间上的图像级别的正则项:(??再看看)
    L e n c _ d e c = ∣ ∣ D e c ( f l , E n c _ Z ( x h ) − x h ∣ ∣ 2 2 L_{enc\_dec}=||Dec(f_l,Enc\_Z(x_h)-x_h||_2^2 Lenc_dec=Dec(fl,Enc_Z(xh)xh22
    由于从HR图像上encode得到的非身份特征有助于生成输出的图像,因此可以将原始的HR图像作为target进行监督(??)。

上述的特征级别正则项和图像级别正则项都可以促进 E n c _ L Enc\_L Enc_L学习鲁棒的身份特征 f l f_l fl,通过改变输入的LR图像的分辨率, f l f_l fl就会分辨率鲁棒
除此之外,本文还使用预训练好的判别器 D i s D_{is} Dis E n c H Enc_H EncH,使得生成的输出图像更realistic以及具有身份保持性。
在这里插入图片描述
上图为具体的训练步骤,首先我们通过HR图像及下采样得到的LR图像对 E n c _ H Enc\_H Enc_H进行训练(stage 1.1),接下来我们固定 E n c _ H Enc\_H Enc_H仅使用HR图像进行特征解离训练(stage 1.2),最后我们将其余模型固定,训练 E n c _ L Enc\_L Enc_L(stage 2)。

Inference 本文通过LR输入图像提取了身份特征 f l = E n c _ L ( x l ) f_l=Enc\_L(x_l) fl=Enc_L(xl)以用于人脸识别,并且通过 D e c ( f l , 0 ) Dec(f_l,0) Dec(fl,0)将非身份特征设为0以实现人脸规范化,通过这样的方式就可以在架构实现中不需要HR图像,以使用unpaired data。

四、实验

4.1 实现细节

数据集: 在精炼的MSCeleb-1M (MS1M)上训练, 在LFW, SCface , QMUL-SurvFace 及WIDER FACE上测试。令HR图像作为图库,使用不同分辨率的LR图像(在三个距离捕获:4.2m , 2.6m 和1.0m )组成probe集进行人脸识别。
训练设置: 采用5个面部标志对齐人脸,通过bicubic将输入的LR图像放缩到128x128

4.2 消融分析

特征解离的影响: 通过训练的Dec可以可视化解离身份特征 f h f_h fh及非身份特征 z h z_h zh,如图所示, f h f_h fh z h z_h zh的融合可以成功地恢复原始图像。
在这里插入图片描述
单独使用身份特征可以生成一个保留身份的正面人脸,而非身份特征可以捕获PIE的变化和背景信息。上述表明了我们的架构有效地分离了身份和非身份特征。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值