论文总结2-The Elements of End-to-end Deep Face Recognition: A Survey of Recent Advances

论文题目:

The Elements of End-to-end Deep Face Recognition: A Survey of Recent Advances

论文链接:

https://arxiv.org/pdf/2009.13290.pdf

 

摘要:关于人脸识别的最新进展综述,从三个方面详细介绍了整个识别系统各个模块:人脸检测、人脸图像预处理、人脸表示。阐述每一块技术的最新进展,包括最新算法设计、评价标准、数据集、性能比较、存在的挑战和前景广阔的研究进展。

  1. 人脸检测(在图像中框出人脸位置)

人脸识别的第一步,目的是在自然图像或视频帧中定位人脸区域

  1. 人脸图像预处理(将人脸校准为标准视图,并将其裁剪为标准像素大小)

Face alignment:用空间变换将人脸扭曲到参考人脸地标的标准位置

Face frontalization:用侧脸图像合成迎面人脸,是处理大姿态人脸识别常用方法

3)人脸表示(从预处理的人脸图像中提取具有识别性的人脸特征)

 

主要贡献:

  1. 对端到端深度人脸识最新进展别提供了一个全面的阐述,包括人脸检测、人脸预处理、人脸表示。

  2. 从算法设计、评价指标、数据集和性能比较等方面对以上三个要素进行了讨论。

  3. 进一步搜集了每个要素存在的挑战和有前景的方向,并从整体框架的角度讨论未来的趋势

 

人脸检测:

主要挑战包括变化分辨率、尺度、姿态、光照、遮挡等。

基于深度学习的人脸检测方法:多阶段、单阶段、基于anchor、anchor-free、多任务学习、CPU实时和面向问题的方法。

其中,多阶段和单阶段的区别在于是否产生候选框,然后再调整候选框以获得更准确的预测。

大多数基于anchor的方法是在特征图上预先设置一定数量的anchor,然后对它们进行分类和回归。最近anchor-free的设计,由于其灵活、高效的特点,在目标检测中受到越来越多关注。

 

  • 多阶段方法:

滑窗提取候选框->排除false positive->用更高的分辨率细化剩下的方框。

级联网络->coarse-to-fine detection

Faster R-CNN

CMS-RCNN:提出了一种基于上下文的多尺度区域CNN,利用人脸和身体周围的特征来完成小人脸检测

  • 单阶段方法:

SSD:对大尺度变异,特别是小脸变异鲁棒性不够强。

借助特征金字塔网络(FPN)

单阶段的精度低于双阶段,由于dense anchors正负样本不均衡。

  • 面向问题:

尺度不变的人脸检测、遮挡、平面内旋转

  • 评估指标:

average precision (AP)是广泛使用的人脸检测指标,由检测精度召回曲线推导而来。

IOU

人脸检测的输出包括一个置信度和一个预测框

  • 挑战和未来工作:

(1)挑战:运行效率、图像变化

(2)未来工作:有效和统一的anchor设置、无anchor人脸检测框架、更加高效的检测框架

 

人脸预处理:

为了消除缩放、旋转和平移的变化

  • 基于facial landmark 定位的方法:坐标回归、heatmap回归、基于3D模型拟合。其中,基于heatmap回归的方法分别输出对应每个landmark的似然响应图。基于3D模型拟合,通过将3D人脸投影到2D 图像获得2D landmark。

  • 有些方法不通过landmark,通过学习transformation parameters,模型直接输出对齐的人脸

  • 人脸正面化也可用于人脸预处理。通过从非正面视图合成保留身份的正面人脸来处理大姿态变化。

人脸对齐:

(1)基于landmark:坐标回归、热图回归、3D模型拟合。

其中热图回归:面部边界热图提供可减少语义歧义的面部几何结构

(2)无landmark

评估指标:点对点欧氏距离归一化平均误差(NME)、累积误差分布(CED)曲线

挑战和未来工作:

(1)挑战:面部的变化(运动模糊、严重的遮挡、大的pose、弱光照)、运行效率、标注的歧义(脸颊处的landmark)、标注的粒度(landmak数量较少)、高保真的face frontalization

(2)未来工作:高鲁棒性和效率、稠密landmark定位、视频landmark定位、半监督landmark定位、高保真face frontalization和它的评价指标

人脸表示:

从预处理人脸中提取用于人脸识别的特征,通过这些特征计算匹配人脸的相似度。

从网络结构、训练监督方式两方面介绍

  • 对于网络结构,广泛用于CV任务的网络、用于人脸表示特别设计的网络

  • 对于训练监督,主要包括:分类、特征嵌入、混合、半监督

监督学习:

  1. 分类:人脸表示学习看做一个分类问题,每个ID作为一类,通过softmax loss和它的变种监督学习。

  2. 特征嵌入:通过根据样本的身份优化样本之间的距离来学习表示

  3. 混合:结合分类和特征嵌入的方法

半监督:

通过使用大量无标签的人脸数据,提升人脸表示能力。

人脸识别的特别场景:

跨域(年龄、pose、种族、交叉模态),低镜头学习(每一个id都有少量的人脸样本)和视频为基础的场景

人脸验证Face verification:预测一组人脸图像是否属于同一身份。

人脸识别Face identification:在一组身份(如图库)中确定人脸的具体身份

  • 分类:

归一化特征向量和权重的影响,并利用它们之间的余弦相似度重新制定目标函数

L2-softmax:将特征向量归一化,使其位于半径固定的超球面上

为有效训练归一化特征,利用一个尺度因子对特征和权重之间的余弦相似度进行重新缩放

归一化softmax:

为了进一步提高类内紧性和类间分离性,有几种方法在损失函数中引入了边际:

m1:cosin margin

m2:angular margin

  • 特征嵌入:

对比损失直接优化了两两之间的距离,使正对靠近,负对远离:

f(.):特征嵌入函数

md:非负的距离余量

对比损失驱动了对所有正对和距离小于边际的负对的监督

 

triplet loss:鼓励正对的距离比负对的距离更小

评估:

当一个探查脸和一个画廊脸是同一身份:

True acceptancd(TA):相似度高于阈值

False rejection(FR):相似度低于阈值

是不同的身份:

true rejection (TR):相似度低于阈值

false acceptance (FA):相似度高于阈值

人脸验证:FAR、TAR,ROC曲线,AUC(area under curve)

人脸识别:one-to-N face matching

挑战:

限制条件下(运算开销、数据集数量)、监控视频人脸识别、含噪声Label、数据集不平衡

展望:

轻量人脸识别网络、对视频变换的鲁棒性、含噪声label的学习、跨域人脸识别、不平衡数据集学习、无标签数据学习

  • 5
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值