论文学习笔记(11):Cross-resolution learning for Face Recognition

在这里插入图片描述

Abstract

目前的人脸识别问题在跨分辨率的人脸匹配识别(即LR-HR)上仍知之甚少,因此本文有以下四点贡献:

  1. 提出了一个训练程序去fine-tune一个state-of-art模型,使其可以提取分辨率鲁棒的深层特征(resolution-robust
  2. 使用高分辨率数据集(IJB-B及IJB-C)及监控相机数据集(QMUL-SurvFace,TinyFace,SCface)对模型进行测试评估
  3. 提出的训练算法同样改善了state-of-art算法在LR-LR匹配上的性能
  4. 与超分技术结合可以更有效的提升提出算法的性能

1. Introduction

对于LR输入图像的匹配问题,一般情况下有两种技术解决:1. 超分方法 2. 将LR和HR投影到一个空间
本篇设计了一种训练算法,旨在使得DL模型可以生成对输入图像分辨率鲁棒的深度表示。还将这种训练算法应用到SotA模型,并使用1:1的人脸验证及1:N的人脸识别进行性能测试。

2. Motivation

一般用于DL模型训练的模型都是HR的,因此在处理现实的LR图像任务时往往表现较差,为了解决这个问题,提出了一些监控人脸数据集eg:UCCS,SCface,QMUL-SurvFace,TinyFace。但这些数据集的问题在于其多样性比HR训练集会小一个数量级,因此很难用于训练SotA模型。
因此本文将采用本文提出的训练算法将HR下的SotA模型调整到LR域,经过fine-tune后的模型可以在输入任何分辨率图像的情况下达到较好的性能。

3. Related works

在05年的一篇文章中,这个团队将人脸图像分解成了多了子频带进行多分辨率(multi-resolution)分析;19年的一篇工作提出了多分辨率字典(multi-resolution dictionary learning)学习算法,每个字典与一个特定的分辨率相关联。
对于超分方法,由于使用LR图像合成HR图像时没有考虑识别这一应用,因此一些身份特征就可能会丢失。因此,有人提出引入identity loss;此后,又有了一种联合训练LR和HR patch的字典,其目标是将LR稀疏表示超分为对应的HR图像;还有作者提出了一种SR方法以从LR和HR图像中学习了多层稀疏表示、身份感知字典,以及表示间的转换函数;在知识蒸馏提出后,又有团队提出了学习HR及LR空间的关系的方法。
Deep Coupled ResNet一文中,作者提出了一个主干网络及两个分支网络的思想:主干网络用不同分辨率的人脸进行训练然后被用于特征提取,分支网络使用HR和LR图像进行训练,然后作为特定分辨率的耦合映射(?),将HR及相应的LR特征转换到它们差异最小的空间。
这篇文章考虑了一个共同的特征空间,可以聚类属于同一身份的LR和HR人脸图像,并使得在不同分辨率的人脸上保持较低的类间方差;这个团队在此后采用GAN进一步改进了该方法
在这篇2018 TIP中又提出了一种基于选择性知识蒸馏的方法,也就是通过求解一个稀疏图优化问题,选择性的蒸馏最重要的面部特征。然后利用这些信息对人脸识别模型的fine-tune过程进行正则化(?)

4. Datasets

在本篇中,仅有VGGFace2用作模型的训练,其余训练集都只用于性能测试。

4.1 VGGFace2

4.2 IJB-B

4.3 IJB-C

4.4 TinyFace

4.5 QMUL-SurvFace

5. Approach

采用StoA模型SeNet-50作为Base Model

  1. 最开始文章采用VGGFace2数据集训练SeNet-50,且用于训练的图片为提取[8,256]范围内分辨率的图片。这样的训练策略下往往由于LR图像与HR图像相比携带信息较少而导致模型不收敛
  2. 在第一种方式尝试失败后,本文又采取了两种fine-tune的方式实现目标:1. 冻结整个网络,只调整最后的FC层 2. 微调网络中的所有参数; 经过尝试,第二种微调方式在初始模型的基础上改进了在24 pixel上的结果。

尽管有了一定的改进,但在更高分辨率下性能仍存在下降,因此本文将模型的权值平滑的调整到LR域(?);基于课程学习curriculum learning)的思想,即让模型先从容易的样本开始学习,并逐渐进阶到复杂的样本和知识,以及teacher-student策略(如下图所示)

在这里插入图片描述
初始时teacher和student都是base model形式,在训练时向teacher喂的是full resolution的图像,而向student喂的是variable resolution的图像;通过从两个模型中提取深层特征,我们可以使得在任何分辨率的输入下,student近似输出与teacher相同的表示——这样也就使得student可以构建分辨率鲁棒的深层表示。
除此之外,本文还利用CL设置下采样图像在[8,256]像素范围内的频率(frequency)以用于student网络的输入:

  1. 在训练过程中,frequency线性的从0到1递增
  2. 对图像进行下采样,使得在原始的长宽比下,其最短边等于所选的分辨率
  3. 利用双线性插值法(bilinear interpolation)在原始尺寸上进行调整
  4. 256 resize 以及224 x 224 random crop

对于损失函数
在这里插入图片描述
这里将softmax loss和MSE loss结合,softmax用于人脸图像的分类,MSE loss用于提取CNN倒数第二层的深度特征损失(?看看代码)
上式中 i ′ i' i表示图像 i i i的下采样图像,因此损失的第二项使得student在不依赖分辨率的情况下学习特征表示,且该特征表示尽可能接近从HR图像生成的特征表示

batch sizeSGD momentumweight decaylr
2560.91e-51e-3

训练时数据集分为training set和validation set,在validation的两部分中,一个将所有图像下采样到24 pixel,另一部分使用full resolution

6. Experimental results

在实验中,本文展示了使用或使用CLTS模式训练下的性能对比。
T-C(即使用TS模型及CL)模式下,使用上文中的损失函数,根据经验发现最佳的平衡权重 λ = 0.1 \lambda=0.1 λ=0.1;本文在1:1人脸验证和1:N人脸识别上对模型进行了测试,对于人脸验证,采用ROC度量,对于人脸识别采用CMCDET分别在open-set及close-set上进行度量。

7. Conclusion

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值