论文题目:
The Elements of End-to-end Deep Face Recognition: A Survey of Recent Advances
论文链接:
https://arxiv.org/pdf/2009.13290.pdf
摘要:关于人脸识别的最新进展综述,从三个方面详细介绍了整个识别系统各个模块:人脸检测、人脸图像预处理、人脸表示。阐述每一块技术的最新进展,包括最新算法设计、评价标准、数据集、性能比较、存在的挑战和前景广阔的研究进展。
-
人脸检测(在图像中框出人脸位置)
人脸识别的第一步,目的是在自然图像或视频帧中定位人脸区域
-
人脸图像预处理(将人脸校准为标准视图,并将其裁剪为标准像素大小)
Face alignment:用空间变换将人脸扭曲到参考人脸地标的标准位置
Face frontalization:用侧脸图像合成迎面人脸,是处理大姿态人脸识别常用方法
(3)人脸表示(从预处理的人脸图像中提取具有识别性的人脸特征)
主要贡献:
-
对端到端深度人脸识最新进展别提供了一个全面的阐述,包括人脸检测、人脸预处理、人脸表示。
-
从算法设计、评价指标、数据集和性能比较等方面对以上三个要素进行了讨论。
-
进一步搜集了每个要素存在的挑战和有前景的方向,并从整体框架的角度讨论未来的趋势
人脸检测:
主要挑战包括变化分辨率、尺度、姿态、光照、遮挡等。
基于深度学习的人脸检测方法:多阶段、单阶段、基于anchor、anchor-free、多任务学习、CPU实时和面向问题的方法。
其中,多阶段和单阶段的区别在于是否产生候选框,然后再调整候选框以获得更准确的预测。
大多数基于anchor的方法是在特征图上预先设置一定数量的anchor,然后对它们进行分类和回归。最近anchor-free的设计,由于其灵活、高效的特点,在目标检测中受到越来越多关注。
-
多阶段方法:
滑窗提取候选框->排除false positive->用更高的分辨率细化剩下的方框。
级联网络->coarse-to-fine detection
Faster R-CNN
CMS-RCNN:提出了一种基于上下文的多尺度区域CNN,利用人脸和身体周围的特征来完成小人脸检测
-
单阶段方法:
SSD:对大尺度变异,特别是小脸变异鲁棒性不够强。
借助特征金字塔网络(FPN)
单阶段的精度低于双阶段,由于dense anchors正负样本不均衡。
-
面向问题:
尺度不变的人脸检测、遮挡、平面内旋转
-
评估指标:
average precision (AP)是广泛使用的人脸检测指标,由检测精度召回曲线推导而来。
IOU
人脸检测的输出包括一个置信度和一个预测框
-
挑战和未来工作:
(1)挑战:运行效率、图像变化
(2)未来工作:有效和统一的anchor设置、无anchor人脸检测框架、更加高效的检测框架
人脸预处理:
为了消除缩放、旋转和平移的变化
-
基于facial landmark 定位的方法:坐标回归、heatmap回归、基于3D模型拟合。其中,基于heatmap回归的方法分别输出对应每个landmark的似然响应图。基于3D模型拟合,通过将3D人脸投影到2D 图像获得2D landmark。
-
有些方法不通过landmark,通过学习transformation parameters,模型直接输出对齐的人脸
-
人脸正面化也可用于人脸预处理。通过从非正面视图合成保留身份的正面人脸来处理大姿态变化。
人脸对齐:
(1)基于landmark:坐标回归、热图回归、3D模型拟合。
其中热图回归:面部边界热图提供可减少语义歧义的面部几何结构
(2)无landmark
评估指标:点对点欧氏距离归一化平均误差(NME)、累积误差分布(CED)曲线
挑战和未来工作:
(1)挑战:面部的变化(运动模糊、严重的遮挡、大的pose、弱光照)、运行效率、标注的歧义(脸颊处的landmark)、标注的粒度(landmak数量较少)、高保真的face frontalization
(2)未来工作:高鲁棒性和效率、稠密landmark定位、视频landmark定位、半监督landmark定位、高保真face frontalization和它的评价指标
人脸表示:
从预处理人脸中提取用于人脸识别的特征,通过这些特征计算匹配人脸的相似度。
从网络结构、训练监督方式两方面介绍
-
对于网络结构,广泛用于CV任务的网络、用于人脸表示特别设计的网络
-
对于训练监督,主要包括:分类、特征嵌入、混合、半监督
监督学习:
-
分类:人脸表示学习看做一个分类问题,每个ID作为一类,通过softmax loss和它的变种监督学习。
-
特征嵌入:通过根据样本的身份优化样本之间的距离来学习表示
-
混合:结合分类和特征嵌入的方法
半监督:
通过使用大量无标签的人脸数据,提升人脸表示能力。
人脸识别的特别场景:
跨域(年龄、pose、种族、交叉模态),低镜头学习(每一个id都有少量的人脸样本)和视频为基础的场景
人脸验证Face verification:预测一组人脸图像是否属于同一身份。
人脸识别Face identification:在一组身份(如图库)中确定人脸的具体身份
-
分类:
归一化特征向量和权重的影响,并利用它们之间的余弦相似度重新制定目标函数
L2-softmax:将特征向量归一化,使其位于半径固定的超球面上
为有效训练归一化特征,利用一个尺度因子对特征和权重之间的余弦相似度进行重新缩放
归一化softmax:
为了进一步提高类内紧性和类间分离性,有几种方法在损失函数中引入了边际:
m1:cosin margin
m2:angular margin
-
特征嵌入:
对比损失直接优化了两两之间的距离,使正对靠近,负对远离:
f(.):特征嵌入函数
md:非负的距离余量
对比损失驱动了对所有正对和距离小于边际的负对的监督
triplet loss:鼓励正对的距离比负对的距离更小
评估:
当一个探查脸和一个画廊脸是同一身份:
True acceptancd(TA):相似度高于阈值
False rejection(FR):相似度低于阈值
是不同的身份:
true rejection (TR):相似度低于阈值
false acceptance (FA):相似度高于阈值
人脸验证:FAR、TAR,ROC曲线,AUC(area under curve)
人脸识别:one-to-N face matching
挑战:
限制条件下(运算开销、数据集数量)、监控视频人脸识别、含噪声Label、数据集不平衡
展望:
轻量人脸识别网络、对视频变换的鲁棒性、含噪声label的学习、跨域人脸识别、不平衡数据集学习、无标签数据学习