Face Recognition(一 综述)



  • 主要参考:The Elements of End-to-end Deep Face Recognition: A Survey of Recent Advances,2021.5

Overview

在这里插入图片描述

  • 1 Face Detection 在图像或视频中定位人脸
    • Traditional Methods:Viola-Jones Face Detector / Deformable Part Models
    • DCNNs
  • 2 Face Preprocessing 将原始自然的人脸校正为规范的视角并且进行裁剪
    • Face Alignment 利用空间变换将脸部扭曲到参考 脸部界标(Facial Landmarks) 的规范位置
    • Face Frontalization 直接从输入图像中生成对齐的面部,合成正面人脸通常用于处理大型姿势人脸识别
  • 3 Face Representation 从经过预处理的人脸图像中提取判别特征以进行识别
    • Traditional Methods:将人脸图投影到低维子空间中,Eigenfaces / Fisherfaces
    • DCNNs
      在这里插入图片描述

Face Detection

  • 人脸识别系统的第一步,输出带有置信度的人脸检测框Bbox
  • 主要步骤在于 特征构建 和 人脸背景区分
  • 这一步的主要挑战就是目标检测任务中常见的挑战:分辨率变化、尺度、姿态、照度以及遮挡等
  • 方法分类:
    • Multi-stage / Single-stage 方法是否包含候选矩形框
    • Anchor-base / Anchor-free 方法是否使用了锚
    • Multi-task Learning方法
    • CPU Real-time方法
    • Problem-oriented方法

发展历程

在这里插入图片描述

  • 整体趋势:从多阶段向单阶段方法转变,Anchor-free惊鸿一瞥,Anchor-based长胜将军!

在这里插入图片描述

Multi-stage Methods

  • coarse-to-fine manner / proposal-to-refine strategy
  • 思路:第一阶段采用滑动窗口,以特定比例(长宽比)提出候选边界框,后续阶段拒绝 False Positive,并以更高的分辨率(精确度)改进剩余的框
  • 在这种方案下,级联式(cascaded)1 架构自然是粗到细面部检测的有效解决方案
  • 因为人脸检测属于特殊化的通用目标检测,所以人脸检测从中借鉴了很多!如 Faster R-CNN RPN
  • 一些技巧:improved loss design, online hard example mining(OHM), multi-scale training and test strategies, feature concatenation etc.
  • 后续的refine模块也有很多研究:如using the auxiliary facial information, or sharing the classification parameters across anchors of different ratio.
  • 此外尺度变化也十分重要,保持尺度不变性,或者说如何对人脸当前的尺寸进行估计是十分关键!如 S A F D SAFD SAFD 2 S 2 A P S^{2}AP S2AP 3
  • 多阶段人脸检测方法的训练 有 分阶段训练策略:每个阶段都有自身的目标函数,但是可能导致 inferior optimization;因此CascadeCNN和Faster R-CNN都设计了 joint training strategy 4
  • Joint 训练策略 4
  • 经典算法
    - Cascade CNN 为2015年提出的级联人脸检测方法,和2018年的Cascade R-CNN 有什么联系呢 TODO
    - CMS-RCNN 提出了一个基于 CNN 的背景多尺度区域,以利用人脸和身体周围的特征来完成小人脸检测。

Single-stage Method

  • 不含 Proposal 阶段,相对于二阶段方法精度低(正负样本数量不均衡)速度快
  • SSD(Single Shot multibox Detector):dense anchors with different aspect ratios 和 scales
  • SSD 是对象检测的主流框架,因为它的运行速度比 R-CNN 快得多,同时保持了可比的精度;而原始的SSD不适合于人脸大幅度尺度变换的情况,尤其是 small faces!所以就有很多相关的改进!5
  • 许多最先进的面部探测器采用金字塔网络 (FPN)功能,该网络由自上而下的架构组成,采用跳层链接,并合并高级和低层功能进行检测(将高底层信息融合)
  • 因此很多单阶段人脸检测以 FPN 为 baseline!如 RetinaFace 6,DSFD7,PyramidBox++8,SSH9,PyramidBox10
  • 从 RefineDet方法启发得到 SRN 11
  • 后续算法 VIM-FD,ISRN,AInnoFace,RefineFace 对 SRN 方法进行改进!改进的技巧有:training data augmentation, improved feature extractor and training supervision, anchor assignment and matching strategy, multi-scale test strategy etc.
  • 还要很多基于点的目标检测方法(也是属于单阶段的目标检测方法),如DenseBox、UnitBox 以及 CenterFace,这类方法不需锚点(Anchor-free)后续会介绍!

Anchor-base/free Method

  • 有锚方法 发展历史长且效果好,是目前的主流;有锚方法 在特征图 上预设了密集的锚,然后在这些锚上完成一次或多次的分类和界框回归,最后输出所接受的锚作为检测结果。因此,锚的分配(长宽比和尺度大小)和匹配策略(Assignment Strategy)对检测精度至关重要。
  • S 3 F D S^3FD S3FD 提出的锚匹配比例补偿可以有效地改善小脸和外脸的召回,此外还利用最大化标签机制减少了大量底片,这也是锚基机制中经常出现的问题。Zhu 等人12 引入了预期的最大重叠分数 ( E M O EMO EMO) 来评估匹配锚的质量,并提出了几种技术来促进真正样本 获得高 E M O EMO EMO 分数。由于数据集中正负样本不平衡,组采样 13 按其秤对 a n c h o r anchor anchor按照尺度大小进行排序,并在训练期间为每组保持相同数量的样本。最近, H A M B o x HAMBox HAMBox 提出了一个在线的 锚 补偿策略,以帮助检测外脸,可以利用未匹配上的锚来提供有利的回归。
  • 有锚方法 在人脸检测方面主导了最先进的状态,但有2个弱点:
    • 预设锚的超参数(例如,比例、步幅、比例、数量)需要根据特定数据集的人脸形状的情况进行调整,这限制了检测器的泛化能力。
    • 密集的锚增加了计算成本,带来了正负锚(正负样本)的不平衡问题。
  • 无锚方法 ( C o r n e r N e t , F C O S , F S A F CornerNet, FCOS, FSAF CornerNet,FCOS,FSAF14) 在一般对象检测中吸引了越来越多的关注。在人脸检测方面,近年来出现了一些开拓性的作品。 D e n s e B o x DenseBox DenseBox U n i t B o x UnitBox UnitBox 尝试预测像素分界框和信心得分。此外 C e n t e r F a c e CenterFace CenterFace 将人脸检测视为关键点估计的一项普遍任务,它预测了特征地图中的面部中心点和界框的大小。
    • 无锚探测器可以摆脱预设的锚,实现更好的通用能力。
    • 不过在检测精度方面,需要进一步探索无锚点方法,才能在培训过程中更好地对误报进行稳健性和稳定性。

Multi-task learning methods

  • 基于多任务学习的方法旨在通过共享视觉表示来解决问题和其他相关任务。在这里我们介绍了多任务学习方法,训练面部探测器与相关的面部任务或辅助监督分支,以丰富功能表示和检测的稳健性。
  • M T C N N MTCNN MTCNN 是最有代表性的,它利用了三组件的级联网络 发现 在Facial Landmarks 和 Bbox 之间的内在相关性
  • H y p e r F a c e HyperFace HyperFace 融合了低/高层功能,同时执行四项任务:face detection, facial landmark localization, gender classification and pose estimation.
  • R e t i n a F a c e RetinaFace RetinaFace 集成 face detection, facial landmark localization and dense
    3D face regression 在一个框架中。(参考自RetinaNet)
  • 还可以接收其他分支 如分割分支、无锚分支等。都可以提升对于人脸检测的训练过程

CPU real-time methods.

  • 在实际应用中,特别是在非 GPU 设备上,很多算法的效率还不够
  • 不过也有很多基于轻量化框架的 人脸检测 方法
    在这里插入图片描述
  • 通常,当输入大小或通道变大时,卷积操作会消耗更多时间。为了加快速度,轻量级骨干(RetinaFace)和快速消化的卷积层(FaceBoxes;Faceboxes15)是有关网络体系结构的常见做法。
  • 知识蒸馏是提高轻型面部检测器性能的另一种选择 FBI 16
  • 此外,引入了感兴趣区域(RoI)卷积17以仅在RoI区域上计算卷积。

Problem-oriented methods

  • 这小节介绍一些属于 人脸检测中 的 Specific Challenges

a wide range of scale

  • 各种小技巧:scale selection, multi-scale detection, dense anchor setting, scale balancing strategy etc.
  • 如2017年的找小脸的算法 HR 18
  • 为处理模糊和小脸的检测,可以采用 super-resolution 方法先处理之后在进行检测 19

partially visible faces (Occlusion)

  • 有很多方法开发了为检测 被遮挡的人脸 的specific技术 20
  • Faceness方法 根据面部部位的出现和空间分布情况来 计算置信评分,因此被遮挡人脸也可以有很高的置信度
  • FAN方法 在数据增广中引入 对人脸进行遮挡的操作,并引入Anchor-level 注意力方法以强调人脸中区域性的特征

in-plane rotation

  • 平面内旋转也是人脸检测中的挑战,为了解决这个问题 PCN 采用逐步校准候选人脸区域 以防止 其朝着直立方向(upright)旋转 21

Metrics and Datasets

Metrics

  • 人脸检测的指标 和 通用目标检测的指标相同
  • AP(average precision):PR曲线的AUC近似值
    • PR曲线基于 检测框和Gt框 的 IoU值
  • ROC曲线(receiver operating characteristic)
  • FPS
    在这里插入图片描述

Datasets

在这里插入图片描述

  • FDDB 是一个经典的无限制人脸检测,包括低分辨率人脸、遮挡人脸和困难姿态变化 difficult pose variations;值得注意的是FDDB的GT标注为椭圆 而不是传统的矩形框
  • AFW包括很多 cluttered 背景和 large variations(age、sunglasses、make-ups 和 expressions)
  • PASCAL faces 是一个从PASCAL的people类别中截取的
  • MALF 用于野外环境下人脸检测的细粒度评测
  • MAFA 是一个遮掩人脸检测benchmark,包括多种旋转和遮挡的情况
  • 还有一些可用于用于训练集的数据集:
    • ALFW只用于训练
    • WIDER FACE 包括 训练、验证和测试数据集,每个子集使用 EdgeBox方法 确定出的 easy、medium和hard 三个难度级别;WIDER FACE 在过去几年极大促进了人脸检测Community

Challenges and Future Work

  • 挑战:Running efficiency & Image variations
    • Efficiency:最先进的探测器已经取得了很大的进步,但它仍然需要检测精度和效率之间的权衡。例如在许多应用中,调整输入图像的大小是探测器加速的常见做法,同时也会损害小脸的召回。
    • Image Variations:在不受约束的条件下,如监控录像,具有较大变化的定位和遮挡的人类面孔往往被探测器遗漏,而不同的图像背景往往导致误报。此外,检测具有广泛规模的面孔也是一个很大的挑战。
  • 未来工作:
    • Effective and unified anchor settings:assignment and matching strategy, attributes tuning, and sampling strategy,然而针对数据集精细调整的anchor设置会影响到算法的泛化能力!所以是否有统一有效的锚设置?
    • Anchor-free face detection framework
    • More efficient detection framework:许多面部探测器在重型骨干网络的基础上实现了出色的检测精度,而轻量级探测器的效率在移动和嵌入式设备上更为重要。因此,在设计更高效的检测框架的同时保持检测精度至关重要。

Face Preprocessing

  • 人脸识别系统的第二步,对人脸检测结果进行视角规范化校正,使用空间转换技术将人脸校准为规范化布局 Given the detected face region, face preprocessing aims to calibrate unconstrained faces to a canonical layout for facilitating the downstream tasks of recognition and analysis, which is an essential intermediate step in the end-to-end face recognition system.
  • 两个主流研究方向 面部对齐和面部正面化(face alignment & face frontalization)
  • 前提:人脸有常规的结构组成,各组件类似,相对空间关系类型
  • Facial Landmarks:又叫Facial Keypoints,以用于相似性变换和仿射变换的参考
  • Face Alignment
    • 为了去除比例、旋转和翻译变化,面部对齐采用空间转换,在Facial Landmarks的帮助下将人脸校准到预先定义的规范布局
    • 某些方法无需依赖面部地标仍可生成对齐的面部。因此我们将面部对齐归类为 landmark-based methods and landmark-free methods!
    • coordinate regression based approaches 点坐标的回归任务
    • heatmap regression based approaches 输出与每个点对应的可能性响应映射
    • 3D model fitting based approaches 基于 3D 模型拟合的方法从 2D 图像预测 3D 人脸形状,然后将其投影到图像平面上以获取 2D 地标
  • Face Frontalization 通过学习转换参数,从输入中直接输出对齐的面。
    • In addition, face frontalization techniques can also be applied in face preprocessing to tackle large pose variations by synthesizing identity-preserving frontal faces from non-frontal views. 正面化旨在从非正面视图合成正面,可用于帮助大姿势人脸识别和面部数据增强。
  • 方法分类
    • Landmark-based Face Alignment
      • coordinate regression
      • heatmap regression
      • 3D model fitting
    • Landmark-free Face Alignment
    • Face Frontalization

在这里插入图片描述
在这里插入图片描述

Landmark-based Face Alignment

  • 使用 Facial Landmarks 的真实位置作为参考,进而空间转换,用于人脸姿态的校正
  • 这类方法的核心任务是 基于landmark的alignment任务

Coordinate regression

  • 针对 landmarks 的点坐标回归任务,即得到专注于学习从人脸图像到landmarks坐标向量的非线性映射
  • 这部分有两块常见的应用: ① Cascaded Regression 22 ② Multi-task Learning
  • 而 RNN 在级联回归 refinement 过程中可以对历史信息进行建模,如 RAR23 和 MDM24 方法都采用了 CNN + RNN 的方法结合 来提取特征,精炼预测结果!
  • 多任务学习可以将 landmarks 和相关的人脸任务相结合 25 26,这些方法其实初衷是为了人脸检测任务而设计的,通过 landmarks 检测分支,提升人脸检测的精度;而 TCDCN 27 和 JFA 28 方法结合了辅助的人脸属性,如表情、性别和人头姿态,来提升 facial landmarks 定位任务!
  • 级联回归任务的performance 极大的取决于 初始位置预测,而且多回归器也造成极大的计算复杂度;为了应对这些级联回归问题,self-iterative regression, direct shape regression, and reasoning-decision regression etc. 29 30
  • 坐标回归任务的损失函数,大多采用 L1、L2 和 Smoothed L1 损失函数,这些回归函数会对样本中的 Outliers 高敏感!因此 wing loss 31 就被提出了!
    • 由于这部分常采用 Normalized Mean Error(NME),和损失函数之间存在差异,会有 Gap;论文 32 采用了 Enhanced Normalized Mean Error loss 来消除这之间的 间隔!
  • 上述研究都是基于 静态图像,而对于视频人脸landmark定位任务来说,如何跨帧利用时间信息是关键的问题!如方法 TSTN方法 33,该方法先基于单张图进行landmarks定位,再捕获空间一致性用于refinement!方法SBR方法 34 将鼓励在视频训练过程中捕获landmarks检测之间的一致性!

Heatmap regression

  • 和坐标回归不同,热图回归将回归各个landmarks的响应图,而Stacked Hourglass(HG)网络是最常用的方法!该类方法最先在姿态估计 Pose Estimation 35 里面有使用(关键点检测)!
    在这里插入图片描述
  • Stacked Hourglass 在这里有很多的成功实现 36
  • 通过全卷积网络进行的按像素的密集分类为 热图回归任务 提供了一种有效的方法;而沙漏结构可以看作是全卷积网络的一个实例。
  • 除了沙漏结构以外,还有很多有效的网络设计:
    • DeCaFA 37,利用堆叠的全卷积U-Net来保持网络中特征图的空间分辨率,并利用 Landmark-wise Attention Maps 来提取当前估计值附近的局部信息
    • High-resolution network (HRNet) 38,维持高分辨率的表现
  • 前一节提到的 Wing Loss 是用于坐标的回归,而直接用在热图回归这里会存在 正负样本不均衡的问题,对此 Wang采用加权惩罚的方式抑制人脸区域 36 ;而 PropagationNet方法 39 提出了 Focal Wing Loss 来调整样本之间的权值!
  • 一些 Landmarks可能存在有 ambiguous definition,特别是一些没有清晰特征的点,如脸颊上的点!而一些人脸遮挡也会造成不精确的标注!这两个问题会导致 landmarks的语义上的偏差从而降低了定位效果!
    • 面部边界热图 40 是提供面部几何结构以减少语义歧义的好选择
    • Semantic Alignment 41
    • KDN 42 和LUVLi 43 建议同时估计面部标志和预测的不确定性,该不确定性可用于识别面部对齐失败的图像。
  • Large-scale Facial Landmark Dataset 的高精度标注任务复杂,可以采用半监督学习来缓解!444546
  • VIdeo中的 人脸热图回归 47: 48: 49:

3D model fitting

  • 考虑到2D面部界标和3D面部形状之间的显式关系,基于3D模型拟合的方法从2D图像重建3D面部形状,然后将其投影到图像平面上以获得2D界标。
  • 与估计一组地标的常规2D方法相比,基于3D模型拟合的方法能够将人脸与成千上万个顶点的3D模型拟合,并以大姿势对齐它们。
  • 3DDFA,DeFA,RDR,Faster-TRFA,FacePoseNet,PR-Net 等方法

Landmark-free Face Alignment

  • 在不依赖面部标志的情况下输出对齐的面部
    在这里插入图片描述
  • spatial transformer network (Spatial-TN) 方法
  • ReST、RDCFace
  • 方法50 发现 结果表明,过度对齐会损害后续的人脸识别,而人脸识别对于特征图上的对齐具有鲁棒性。因此他们提议在人脸识别的联合监督下学习特征图上的人脸对齐。

Face Frontalization

在这里插入图片描述

  • 在不受控制的环境中,姿势变化对于人脸识别来说是一个严重的问题;为了消除姿势影响,人脸正面化的目的是从非正面视图合成 保留身份特征的正面的人脸。
  • 早期DL采用 基于3D人脸建模的routine 或者 Encoder-Decoder结构 来尝试恢复人脸;然而这些方法会影响到后续识别任务的识别精度(即方法效果不好)
  • 之后的人脸正面化方法 基本基于 GAN 方法:TP-GAN、pose invariant
    model (PIM)
  • 也有很多方法是把 GAN 和 3D人脸相结合,如方法 51

Metrics and Datasets

Metrics

N M E = 1 M ∑ k = 1 M ∥ p k − g k ∥ 2 d N M E=\frac{1}{M} \sum_{k=1}^{M} \frac{\left\|p_{k}-g_{k}\right\|_{2}}{d} NME=M1k=1Mdpkgk2

  • d指的是归一化的距离,它是由眼间距离或瞳孔间距离定义的;d用于减轻因不同的脸部比例和较大的姿势而引起的异常测量。
  • The cumulative errors distribution (CED) curve is also used as an evaluation criterion. CED is a distribution function of NME. 采用AUC指标衡量
    A U C α = ∫ 0 α f ( e ) d e A U C_{\alpha}=\int_{0}^{\alpha} f(e) d e AUCα=0αf(e)de

Dataset

在这里插入图片描述

  • CMU Multi Pose, Illumination, and Expression (Multi-PIE) is the largest facial dataset in constrained condition
  • In addition, more in-the-wild datasets [11, 19, 114, 121, 150, 189, 195, 266, 303, 363] are proposed for facial landmark localization. Among them, 300-W [188, 189] is the most frequently used dataset, which follows annotation configuration of Multi-PIE and re-annotates the images in LFPW, AFW, HELEN, and a newly collected dataset,
  • Menpo [303] is a large-scale facial landmark dataset with more difficult cases for facial landmark localization.
  • JD-landmark [150] annotates face images with 106 facial landmarks to provide more structural information of facial components.
  • The aforementioned datasets focus on still images, while 300-VW [195] provides 50 video clips for training and 64 for test of facial landmark localization in video.

Challenges and Future Work

  • 挑战:Facial Variations / Runtime efficiency / The annotation ambiguity / The annotation granularity / High-fidelity face frontalization:
  • 方向:High robustness and efficiency / Dense landmark localization / Video-based landmark localization / Semi-supervised landmark localization / High-fidelity face frontalization and its metrics

Face Representation

  • 人脸识别系统中的关键步骤,人脸表示致力于学习深度人脸模型,并用它来从预处理的面部中提取特征以进行识别;这些特征后续将被用于在人脸之间相似度的计算
  • network architecture
    • 采用通用网络结构用于大范围视觉任务的设计
    • 采用特殊网络结构用于专门的特殊化的人脸表征
  • the training supervision 四个研究内容
    • classification schemes 将人脸表征学习视为分类任务问题 每个ID被视为类别class号,采用softmax函数等
    • feature embedding schemes 根据样本的身份ID优化出样本之间的距离
    • hybrid schemes 前两个方案的混合
    • semi-supervised schemes 不同于前三个方案 该方案采用半监督方案 可以通过使用大量未标记的面部数据来改善人脸表示学习
  • 一些特殊的人脸识别场景:cross domain, low-shot learning and video based scenarios

在这里插入图片描述

  • 人脸表示做的事是,把对齐的人脸图像映射到特征空间,在特征空间内相同ID的人脸特征相似,不同ID的人脸特征相差很大!
  • 对于人脸识别的实际应用,具体包括两大任务:Face Verification 和 Face Identification!
    • Verification 指的是验证两个人脸图像是否属于相同的ID
    • Identification 可视为Verification的拓展,即验证某个人脸和某个身份集合中每个人脸的相似性,取最相似的人脸对应的身份作为该输入人脸的最可能的身份,或者判断输入人脸的身份 是否属于此身份集合
  • 不论 Verification 和 Identification,人脸表示 representation 都是不可或缺的步骤,使用面部 Representation 来计算面部图像之间的相似度!
  • 下面主要从 网络结构 和 训练管理 两部分来介绍,并且介绍了一些特殊应用场景下的人脸识别任务!

在这里插入图片描述

Network Architectures

  • 人脸识别技术的提升离不开 深度框架的设计,本节将框架分为 General 和 Specialized,前者常用于常见视觉 通用目标 的识别任务;后者面向人脸识别进行修改和集成的独特设计!

General Architectures.

  • 神经网络通过图像分类任务实现了 ”伟大复兴“,起源于在 ImageNet竞赛 ILSVRC中独占鳌头的 AlexNet方法;
  • 之后VGGNet 将AlexNet中的大卷积核修改为 3x3的小卷积核,并且将网络加深;
  • GoogleNet引入 Inception模块(将不同感受野的结构放一起),用于在不增加计算复杂度的前提下扩大网络的感知;GoogleNet用于人脸识别的representation 被命名为 FaceNet
  • 为了可以进一步加深网络,引入残差连接形成 ResNet;AttentionNet 52 将注意力模块引入了残差网络,以利用空间注意力。
  • SENet引入 squeeze-and-excitation (SE) Blocks,从而将通道和空间信息进行融合,从而形成通道维的 注意力机制
  • 一些轻量级(lightweight)的网络也被提出,用于在算法速度和精度之间进行权衡,如 MobileNets v1/2/3、SqueezeNet、Shufflenet v1/2

Specialized Architectures

  • 除了为通用视觉任务提出来的网络结构以外,还有很多工作开发了一些针对 representation 任务的特殊网络框架!
  • 早期一些工作专注于将多种多样的卷积网络进行集成从而学习人脸上各部分的局部特征!这种集成的网络比单一的网络结构会更为鲁棒!
  • 启发自 Bilinear CNN,方法 53 将其用于人脸表示学习
  • Comparator Network 提出了一个端到端的 计算两个人脸图像集 之间的相似距离!
  • AFRN 网络 / FANFace 方法
  • 一些方法专注于对于网络的轻量化,如 Sparse ConvNet、Light-CNN、MobileFaceNet、Mobiface、ShuffleFaceNet、
  • 一些方法专注于对一些特殊人脸识别任务:为了处理训练数据集中的标签噪声问题,Co-Mining 54 使用两个对等网络来协作地区分嘈杂的标签样本,并将其余的干净样本用于训练。 Kim等 55 提出了一种称为GroupFace的体系结构,该体系结构可以学习人脸的潜在分组方案,并通过具有组感知能力的表示促进识别。为了解决长尾域的问题,曹等人 56 介绍了一种剩余平衡映射块,将人脸表示与领域相关特征结合起来。

Training Supervision

  • 训练监督的目标是为了鼓励相同身份的面孔相距较近,而不同身份的面孔相距较远。
  • 人脸表示方法的分类可以分为:监督学习 、 半监督学习和无监督学习 57;不过本节关注于监督学习和半监督学习,因为这两部分算法是目前人脸识别领域的 SOTA!

在这里插入图片描述

Supervised Scheme

  • 在有监督的方案中,我们可以将现有作品进一步分为三个子集,即分类,特征嵌入和混合方法。\
  • 分类方法以N类分类中的每一个为标识,以N向分类目标完成人脸表示学习。
  • 特征嵌入方法旨在相对于身份标签优化样本之间的特征距离,这意味着最大化人际距离并最小化人际距离。
  • 一些作品同时使用分类和特征嵌入例程来联合训练表示网络,即混合方法。
Classification scheme
  • 从通用目标多分类任务拓展来,每个类别就对应着每个身份 IDs!
  • 对于多分类问题,使用 Softmax + 全连接FC层 + 交叉熵损失函数,是一个通用的策略
  • 其中 DeepFace 和 DeepID 是此类方法的先锋者,其损失函数采用如下:
    L = − 1 N ∑ i = 1 N log ⁡ e W y i T x i + b y i ∑ j = 1 c e W j T x i + b j \mathcal{L}=-\frac{1}{N} \sum_{i=1}^{N} \log \frac{e^{W_{y_{i}}^{T} x_{i}+b_{y_{i}}}}{\sum_{j=1}^{c} e^{W_{j}^{T} x_{i}+b_{j}}} L=N1i=1Nlogj=1ceWjTxi+bjeWyiTxi+byi
  • (W, b) 为全连接层的参数,该损失函数属于最大似然损失函数!
  • 一些关于分类损失函数的介绍和区分 Pytorch踩坑记之交叉熵(nn.CrossEntropy,nn.NLLLoss,nn.BCELoss的区别和使用)
  • 之后一些工作对损失函数进行改进,L2-softmax、NormFace、COCO loss、Ring loss;在上文原始的形式中引入 余弦距离公式,形成如下的损失函数:
    L = − 1 N ∑ i = 1 N log ⁡ e s cos ⁡ ( θ y i ) e s cos ⁡ ( θ y i ) + ∑ j = 1 , j ≠ y i c e s cos ⁡ θ j \mathcal{L}=-\frac{1}{N} \sum_{i=1}^{N} \log \frac{e^{s \cos \left(\theta_{y_{i}}\right)}}{e^{s \cos \left(\theta_{y_{i}}\right)}+\sum_{j=1, j \neq y_{i}}^{c} e^{s \cos \theta_{j}}} L=N1i=1Nlogescos(θyi)+j=1,j=yicescosθjescos(θyi)
  • 其中 c o s ( θ ) cos(\theta) cos(θ) 是从 W j T x i W_j^T x_i WjTxi 表达式推出来的,只要取 W j = W j ∥ W j ∥ 2 W_{j}=\frac{W_{j}}{\left\|W_{j}\right\|_{2}} Wj=Wj2Wj x i = x i ∥ x i ∥ 2 x_{i}=\frac{x_{i}}{\left\|x_{i}\right\|_{2}} xi=xi2xi,则向量内积就变形为两个 向量W和x之间的余弦距离!,而 s s s为尺度放缩参数, y y y x x x对应的标签真值
  • 为了提升表示空间的类内紧凑性和类间分离性 intra-class compactness and inter-class separateness ,一些方法在损失函数引入Margin,L-softmax(Large-margin softmax loss) 将余弦距离替换为 ψ ( θ y i ) \psi\left(\theta_{y_{i}}\right) ψ(θyi)
    ψ ( θ y i ) = ( − 1 ) k cos ⁡ ( m θ y i ) − 2 k , θ y i ∈ [ k π m , ( k + 1 ) π m ] , \psi\left(\theta_{y_{i}}\right)=(-1)^{k} \cos \left(m \theta_{y_{i}}\right)-2 k, \quad \theta_{y_{i}} \in\left[\frac{k \pi}{m}, \frac{(k+1) \pi}{m}\right], ψ(θyi)=(1)kcos(mθyi)2k,θyi[mkπ,m(k+1)π],
  • 和 L-softmax类似的方法有 SphereFace
  • L-softmax包含乘性因子 可能会导致一些收敛问题,对此 有 AM-softmax 方法 和 CosFace 方法,采用了加性项m,替换余弦距离 cos ⁡ ( θ y i ) + m 1 \cos \left(\theta_{y_{i}}\right)+m_{1} cos(θyi)+m1 其中 m 1 > 0 m_1 > 0 m1>0;而 ArcFace 方法采用了 cos ⁡ ( θ y i + m 2 ) \cos \left(\theta_{y_{i}}+m_{2}\right) cos(θyi+m2) 其中 m 2 < 0 m_2 < 0 m2<0;这些方法都能保证稳定的算法收敛性!这类方法的 loss函数通项为:
    L = − 1 N ∑ i = 1 N log ⁡ e s ( cos ⁡ ( θ y i + m 2 ) + m 1 ) e s ( cos ⁡ ( θ y i + m 2 ) + m 1 ) + ∑ j = 1 , j ≠ y i c e s cos ⁡ θ j \mathcal{L}=-\frac{1}{N} \sum_{i=1}^{N} \log \frac{e^{s\left(\cos \left(\theta_{y_{i}}+m_{2}\right)+m_{1}\right)}}{e^{s\left(\cos \left(\theta_{y_{i}}+m_{2}\right)+m_{1}\right)}+\sum_{j=1, j \neq y_{i}}^{c} e^{s \cos \theta_{j}}} L=N1i=1Nloges(cos(θyi+m2)+m1)+j=1,j=yicescosθjes(cos(θyi+m2)+m1)
  • AdaptiveFace 方法 提出了一个可学习的 Margin!类似的也有 Fair loss 方法的提出!
  • Adacos 方法、P2SGrad 方法 margin-based softmax loss 研究
  • 除了对于 Margin 的研究,还有一些工作是针对 hard sample mining strategy 的改进,如 MV-softmax,ArcNeg、CurricularFace、
  • 而对于 noisy label,也存在很多针对性的工作,如 58 59 60
  • 其他方法 GroupFace、PFE 、 DUL
Feature embedding scheme
  • 特征嵌入方案旨在根据样本对的标签来优化特征距离,以 度量学习 的思路来学习 特征表示空间
  • 简单来说,即对于正样本对要最小化样本距离最大化相似度,对于负样本对要最大化样本距离最小化相似度
  • Contrastive loss 对比损失函数,DeepID3 方法 等
    L c = { 1 2 ∥ f ( x i ) − f ( x j ) ∥ 2 2  if  y i = y j , 1 2 max ⁡ ( 0 , m d − ∥ f ( x i ) − f ( x j ) ∥ 2 ) 2  if  y i ≠ y j , \mathcal{L}_{c}=\left\{\begin{array}{ll} \frac{1}{2}\left\|f\left(x_{i}\right)-f\left(x_{j}\right)\right\|_{2}^{2} & \text { if } y_{i}=y_{j}, \\ \frac{1}{2} \max \left(0, m_{d}-\left\|f\left(x_{i}\right)-f\left(x_{j}\right)\right\|_{2}\right)^{2} & \text { if } y_{i} \neq y_{j}, \end{array}\right. Lc={21f(xi)f(xj)2221max(0,mdf(xi)f(xj)2)2 if yi=yj, if yi=yj,
  • triplet loss 函数,FaceNet 方法、方法 61
    L t = ∑ i N [ ∥ f ( x i a ) − f ( x i p ) ∥ 2 2 − ∥ f ( x i a ) − f ( x i n ) ∥ 2 2 + m d ] + \mathcal{L}_{t}=\sum_{i}^{N}\left[\left\|f\left(x_{i}^{a}\right)-f\left(x_{i}^{p}\right)\right\|_{2}^{2}-\left\|f\left(x_{i}^{a}\right)-f\left(x_{i}^{n}\right)\right\|_{2}^{2}+m_{d}\right]_{+} Lt=iN[f(xia)f(xip)22f(xia)f(xin)22+md]+
  • where m d m_{d} md is the distance margin, x i a x_{i}^{a} xia denotes the anchor sample, x i p x_{i}^{p} xip and x i n x_{i}^{n} xin refer to the positive sample and negative sample, respectively.
  • 对比损失函数 和 三元组损失函数 都是只有一个负样本,而 N-pair loss 62 将其推广到多负样本
Hybrid methods
  • 混合方法 将分类方法 和 特征embedding集成在一起 使用监督信息学习
  • DeepID2 , DeepID2+ , DeepID3 使用 softmax loss 和 contrastive loss 集合同时学习 人脸表示空间
  • 方法 63 使用两阶段训练方法,第一阶段使用softmax损失函数,而第二阶段使用triple损失函数
  • 还有一些方法 在feature embedding 阶段 使用 hybrid scheme,如 Center loss , UniformFace and RegularFace
  • 介绍下面的方法之前,先介绍一下什么叫长尾分布,少量类别的样本数占据大量样本比例!
    在这里插入图片描述
  • 通常,分类方案在头部数据上效果很好,而在尾部数据上效果很差,因为它要求每个班级都有足够的训练样本;与分类方案相比,特征嵌入方案能够对尾部数据进行补充监督;因此分类和特征嵌入的组合可以改善对长尾分布数据的训练。
    • 如 Range loss 优化最大类内距离和最近的类间距离,以有效利用尾部数据
    • 方法 64 提出了从分类和嵌入学习的统一角度出发的 circle loss,该方法将 triplet loss with the cross-entropy loss 相结合,以同时学习具有成对标签和按类别标签的深度特征!

Semi-supervised Scheme

  • 方法 65 66 专注于生成未标记数据的伪标记,或最小化标记身份上未标记数据的softmax分类概率
  • 方法 67 考虑到了标签数据 和 无标签数据之间的 Domain gap
  • 方法 68

Specific Face Recognition Tasks

Cross-domain face recognition

  • 跨域一词是指包含各种因素的通用定义,例如跨年龄和跨姿势的面部识别
  • 由于深度学习是一种数据驱动的技术,因此深度网络通常在训练领域工作良好,而在看不见的领域却表现不佳
  • 在现实世界中的人脸识别应用中,提高跨不同领域因素的人脸表示的泛化能力至关重要
  • 在下文中,我们讨论了跨域人脸识别的某些方面,包括跨年龄,跨姿势,跨种族和跨模式
  • Cross-age:
  • Cross-pose:
  • Racial bias
  • Cross-modality
  • TODO

Low-shot face recognition

  • 强调人脸样本较少的场景
  • TODO

Video face recognition

  • TODO

Metrics and Datasets

Metrics

  • 分为 verification 和 identification
  • 评测过程中的两个术语:gallery是指在人脸识别系统中以已知身份注册的一组人脸,而 probe表示在验证或识别中需要识别的一组人脸。
  • Probe脸 和 gallery面有相同的标识
    • true acceptance TA,表示它们的相似度高于阈值
    • false rejection(FR)表示它们的相似度低于阈值
    • true rejection(TR)表示它们的相似性低于阈值
    • false acceptance(FA)表示它们的相似性高于阈值
Verification Tasks
  • The false accept rate ( F A R = F A F A + T R FAR = \frac{F A}{F A+T R} FAR=FA+TRFA) and true accept rate ( T A R = T A T A + F R TAR = \frac{T A}{T A+F R} TAR=TA+FRTA) are used to evaluate the verification performance.
  • FAR 和 TAR 的 ROC 曲线,以及AUC
Identification Tasks
  • Face identification task determines whether a probe face belongs to a enrolled identity in the gallery set.
  • To this end, the probe face needs to be compared with every person in the gallery set. Thus, the identification task can be also referred as one-to-N face matching.
  • 人脸 Identification 应对有两个任务:open-set and closed-set
  • Open-set 场景 实际场景最常见的情况
    • Open-set 指的是 probe不一定就属于 gallery集内的某个身份
    • 常见的两个指标有 true positive identification rate (TPIR) 和 false positive identification rate (FPIR)
    • 如果 probe 确实和 gallery集中 的某个身份相对应,这种情况被称为 mate searching,此probe被称为 mate probe;由 TPIR指标 衡量,表示成功进行配偶搜索的比例
    • 如果 probe 确实和 gallery集中 的某个身份不相对应,这种情况被称为 non-mate searching,此probe被称为 non-mate probe;由 FPIR指标 衡量,表示被错误识别为已注册身份的非配对探针的比例。
    • ROC 曲线 + AUC
  • Close-set 场景
    • The cumulative match characteristic (CMC)
    • It is noteworthy that the CMC is a special case of the TPIR when we relax the threshold.

Datasets

在这里插入图片描述

  • 训练数据:CASIA-WebFace、VGGFace、VGGFace2、MS-Celeb-1M、MegaFace、IMDb-Face
  • 测试数据:Labeled Faces in the Wild (LFW)、SLLFW、YouTube Faces (YTF) [264], IJB-A [113], IJB-B [262], IJB-C [161], IJB-S [105] and QMUL-SurvFace

在这里插入图片描述

Challenges and Future Work

Challenges

  • Under limited conditions:
  • Surveillance video face recognition: various facial variations, such large poses, motion blur, low illumination, low resolution, occlusion etc…
  • Label noise
  • Imbalance data: 如 long-tail distribution

Futures

  • Lightweight face recognition
  • Robustness to variations in video:
  • Noisy label learning
  • Cross domain face recognition
  • Learning with imbalance data:
  • Learning with unlabeled faces

Discussion & Conclusion

在这里插入图片描述

参考文献

Happy Ending


  1. H. Li, Z. Lin, X. Shen, J. Brandt, and G. Hua. 2015. A convolutional neural network cascade for face detection. In 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 5325–5334. ↩︎

  2. Z. Hao, Y. Liu, H. Qin, J. Yan, X. Li, and X. Hu. 2017. Scale-aware face detection. In Proceedings ofthe IEEE Conference on ComputerVision andPattern Recognition (CVPR). 6186–6195. ↩︎

  3. G. Song, Y. Liu, M. Jiang, Y. Wang, J. Yan, and B. Leng. 2018. Beyond Trade-Off: Accelerate FCN-Based Face Detector With Higher Accuracy. In Proceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 7756–7764. ↩︎

  4. H. Qin, J. Yan, L. Xiu, and X. Hu. 2016. Joint Training of Cascaded CNN for Face Detection. In Proceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 3456–3465. ↩︎ ↩︎

  5. S. Zhang, X. Zhu, Z. Lei, H. Shi, X. Wang, and S. Z. Li. 2017. S3FD: single shot scale-Invariant face detector. In Proceedings ofthe IEEE International Conference on Computer Vision (ICCV). 192–201. ↩︎

  6. Jiankang Deng, Jia Guo, Evangelos Ververas, Irene Kotsia, and Stefanos Zafeiriou. 2020. RetinaFace: single-shot multi-Level face localisation in the wild. In Proceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 5203–5212. ↩︎

  7. J. Li, Y. Wang, C. Wang, Y. Tai, J. Qian, J. Yang, C. Wang, J. Li, and F. Huang. 2019. DSFD: dual shot face detector. In Proceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 5060–5069. ↩︎

  8. Z. Li, X. Tang, J. Han, J. Liu, and R. He. 2019. PyramidBox++: High Performance Detector for Finding Tiny Face. ↩︎

  9. M. Najibi, P. Samangouei, R. Chellappa, and L. S. Davis. 2017. SSH: single stage headless face detector. In Proceedings ofthe IEEE International Conference on Computer Vision (ICCV). 4885–4894. ↩︎

  10. X. Tang, D. K. Du, Z. He, and J. Liu. 2018. Pyramidbox: a context-assisted single shot face detector. In Proceedings ofthe European Conference on Computer Vision (ECCV). 797–813. ↩︎

  11. C. Chi, S. Zhang, J. Xing, Z. Lei, S. Z. Li, and X. Zou. 2019. Selective refinement network for high performance face detection. In Proceedings ofthe AAAI Conference on Artificial Intelligence, Vol. 33. 8231–8238. ↩︎

  12. C. Zhu, R. Tao, K. Luu, and M. Savvides. 2018. Seeing small faces from robust anchor’s perspective. In Proceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 5127–5136. ↩︎

  13. X. Ming, F. Wei, T. Zhang, D. Chen, and F. Wen. 2019. Group Sampling for Scale Invariant Face Detection. In Proceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 3446–3456. ↩︎

  14. C. Zhu, Y. He, and M. Savvides. 2019. Feature Selective Anchor-Free Module for Single-Shot Object Detection. In Proceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 840–849. ↩︎

  15. S. Zhang, X. Zhu, Lei Zhen, Xiaobo Wang, and Stan Z Li. 2018. Detecting face with densely connected face proposal network. Neurocomputing 284 (2018), 119–127. ↩︎

  16. H. Jin, S. Zhang, X. Zhu, Y. Tang, Z. Lei, and S. Z. Li. 2019. Learning Lightweight Face Detector with Knowledge Distillation. In 2019 International Conference on Biometrics (ICB). 1–7. ↩︎

  17. D. Chen, G. Hua, F. Wen, and J. Sun. 2016. Supervised transformer network for efficient face detection. In Proceedings ofthe European Conference on Computer Vision (ECCV), Vol. 9909. 122–138. ↩︎

  18. P. Hu and D. Ramanan. 2017. Finding tiny faces. In Proceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 1522–1530. ↩︎

  19. Y. Bai, Y. Zhang, M. Ding, and B. Ghanem. 2018. Finding tiny faces in the wild with generative adversarial network. In Proceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 21–30. ↩︎

  20. S. Ge, J. Li, Q. Ye, and Z. Luo. 2017. Detecting masked faces in the wild with lle-cnns. In Proceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition. 2682–2690. ↩︎

  21. X. Shi, S. Shan, M. Kan, S. Wu, and X. Chen. 2018. Real-Time rotation-invariant face detection with progressive calibration networks. In Proceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2295–2303. ↩︎

  22. J. Lv, X. Shao, J. Xing, C. Cheng, and X. Zhou. 2017. A Deep Regression Architecture with Two-Stage Re-initialization for High Performance Facial Landmark Detection. In Proceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 3691–3700. ↩︎

  23. S. Xiao, J. Feng, J. Xing, H. Lai, S. Yan, and A. A. Kassim. 2016. Robust Facial Landmark Detection via Recurrent Attentive-Refinement Networks… In Proceedings ofthe European Conference on Computer Vision (ECCV). Springer, 57–72. ↩︎

  24. G. Trigeorgis, P. Snape, M. A. Nicolaou, E. Antonakos, and S. Zafeiriou. 2016. Mnemonic Descent Method: A Recurrent Process Applied for End-to-End Face Alignment. In 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 4177–4187. ↩︎

  25. R. Ranjan, V. M. Patel, and R. Chellappa. 2019. HyperFace: A Deep Multi-Task Learning Framework for Face Detection, Landmark Localization, Pose Estimation, and Gender Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence 41, 1 (2019), 121–135. ↩︎

  26. Y. Xu, W. Yan, H. Sun, G. Yang, and J. Luo. 2019. CenterFace: Joint Face Detection and Alignment Using Face as Point. ↩︎

  27. Z. Zhang, L. Ping, C. L. Chen, and X. Tang. 2014. Facial Landmark Detection by Deep Multi-task Learning. In European Conference on Computer Vision. ↩︎

  28. X. Xu and I. A. Kakadiaris. 2017. Joint head pose estimation and face alignment framework using global and local cnn features. In Proceedings ofthe IEEE International Conference on Automatic Face Gesture Recognition (FG 2017). 642–649. ↩︎

  29. H. Liu, J. Lu, M. Guo, S. Wu, and J. Zhou. 2020. Learning Reasoning-Decision Networks for Robust Face Alignment. IEEE Transactions on Pattern Analysis and Machine Intelligence 42 (2020), 679–693. ↩︎

  30. X. Miao, X. Zhen, X. Liu, C. Deng, V. Athitsos, and H. Huang. 2018. Direct Shape Regression Networks for End-to-End Face Alignment. In Proceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 5040–5049. ↩︎

  31. Z. Feng, J. Kittler, M. Awais, P. Huber, and X. Wu. 2018. Wing Loss for Robust Facial Landmark Localisation with Convolutional Neural Networks. In Proceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2235–2245. ↩︎

  32. S. Lai, Z. Chai, S. Li, H. Meng, M. Yang, and X. Wei. 2019. Enhanced Normalized Mean Error loss for Robust Facial Landmark detection. In Proceedings ofthe British Machine Vision Conference. 111. ↩︎

  33. H. Liu, J. Lu, J. Feng, and J. Zhou. 2018. Two-Stream Transformer Networks for Video-Based Face Alignment. IEEE Transactions on Pattern Analysis and Machine Intelligence 40 (2018), 2546–2554. ↩︎

  34. X. Dong, S. Yu, X. Weng, S. Wei, Y. Yang, and Y. Sheikh. 2018. Supervision-by-Registration: An Unsupervised Approach to Improve the Precision of Facial Landmark Detectors. In Proceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 360–368. ↩︎

  35. A. Newell, K. Yang, and J. Deng. 2016. Stacked Hourglass Networks for Human Pose Estimation. In Proceedings ofthe European Conference on Computer Vision (ECCV). 483–499. ↩︎

  36. X.Wang, L. Bo, and L. Fuxin. 2019. Adaptive Wing Loss for Robust Face Alignment via Heatmap Regression. In Proceedings ofthe IEEE International Conference on Computer Vision (ICCV). 6970–6980. ↩︎ ↩︎

  37. A. Dapogny, M. Cord, and K. Bailly. 2019. DeCaFA: Deep Convolutional Cascade for Face Alignment in the Wild. In Proceedings ofthe IEEE International Conference on Computer Vision (ICCV). 6892–6900. ↩︎

  38. J. Wang, k. Sun, T. Cheng, B. Jiang, C. Deng, Y. Zhao, D. Liu, Y. Mu, M. Tan, X. Wang, W. Liu, and B. Xiao. 2020. Deep high-resolution representation learning for visual recognition. IEEE transactions on pattern analysis and machine intelligence (2020). ↩︎

  39. X. Huang, W. Deng, H. Shen, X. Zhang, and J. Ye. 2020. PropagationNet: Propagate Points to Curve to Learn Structure Information. In Proceedings ofthe IEEE/CVF Conference on Computer Vision and Pattern Recognition. 7265–7274. ↩︎

  40. W. Wu, C. Qian, S. Yang, Q. Wang, Y. Cai, and Q. Zhou. 2018. Look at Boundary: A Boundary-Aware Face Alignment Algorithm. In Proceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2129–2138. ↩︎

  41. Z. Liu, X. Zhu, G. Hu, H. Guo, M. Tang, Z. Lei, N. M. Robertson, and J. Wang. 2019. Semantic Alignment: Finding Semantically Consistent Ground-Truth for Facial Landmark Detection. In Proceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 3462–3471. ↩︎

  42. L. Chen, H. Su, and Q. Ji. 2019. Face Alignment With Kernel Density Deep Neural Network. In Proceedings ofthe IEEE International Conference on Computer Vision (ICCV). 6991–7001. ↩︎

  43. A.n Kumar, T.K. Marks, W. Mou, Y. Wang, M. Jones, A. Cherian, T. Koike-Akino, X. Liu, and C. Feng. 2020. LUVLi face alignment: estimating landmarks’ location, uncertainty, and visibility likelihood. In Proceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 8236–8246. ↩︎

  44. S. Honari, P. Molchanov, S. Tyree, P. Vincent, C. J. Pal, and J. Kautz. 2018. Improving Landmark Localization with Semi-Supervised Learning. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (2018), 1546–1555. ↩︎

  45. X. Dong and Y. Yang. 2019. Teacher Supervises Students How to Learn From Partially Labeled Images for Facial Landmark Detection. In Proceedings ofthe IEEE International Conference on Computer Vision (ICCV). 783–792. ↩︎

  46. J. P. Robinson, Y. Li, N. Zhang, Y. Fu, and S.Tulyakov. 2019. Laplace Landmark Localization. In Proceedings ofthe IEEE International Conference on Computer Vision (ICCV). 10102–10111. ↩︎

  47. X. Peng, R. S. Feris, X. Wang, and D. N. Metaxas. 2016. A Recurrent Encoder-Decoder Network for Sequential Face Alignment. In Proceedings ofthe European Conference on Computer Vision (ECCV). Springer, 38–56. ↩︎

  48. K. Sun, W. Wu, T. Liu, S. Yang, Q. Wang, Q. Zhou, Z. Ye, and C. Qian. 2019. FAB: A Robust Facial Landmark Detection Framework for Motion-Blurred Videos. In Proceedings ofthe IEEE International Conference on Computer Vision (ICCV). 5461–5470. ↩︎

  49. Y. Tai, Y. Liang, X. Liu, L. Duan, J. Li, C. Wang, F. Huang, and Y. Chen. 2019. Towards Highly Accurate and Stable Face Alignment for High-Resolution Videos. In Proceedings ofthe AAAIConference on Artificial Intelligence, Vol. 33. 8893–8900. ↩︎

  50. H. Wei, P. Lu, and Y. Wei. 2020. Balanced Alignment for Face Recognition: A Joint Learning Approach. ArXiv abs/2003.10168 (2020). ↩︎

  51. J. Cao, Y. Hu, H. Zhang, R. He, and Z. Sun. 2019. Towards High Fidelity Face Frontalization in the Wild. International Journal ofComputer Vision 128 (2019), 1485 – 1504. ↩︎

  52. F. Wang, M. Jiang, C. Qian, S. Yang, C. Li, H. Zhang, X. Wang, and X. Tang. 2017. Residual Attention Network for Image Classification. Proceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (2017), 6450–6458. ↩︎

  53. A. R. Chowdhury, T. Lin, S. Maji, and E. G. Learned-Miller. 2016. One-to-many face recognition with bilinear CNNs. 2016 IEEE WinterConference on Applications ofComputer Vision (WACV) (2016), 1–9. ↩︎

  54. X.Wang, S. Wang, J. Wang, H. Shi, and T. Mei. 2019. Co-Mining: Deep Face Recognition With Noisy Labels. In Proceedings ofthe IEEE International Conference on Computer Vision (ICCV). 9358–9367. ↩︎

  55. Y. Kim, W. Park, M.l Roh, and J. Shin. 2020. GroupFace: Learning Latent Groups and Constructing Group-based Representations for Face Recognition. In Proceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 5621–5630. ↩︎

  56. D. Cao, X. Zhu, X. Huang, J. Guo, and Z. Lei. 2020. Domain Balancing: Face Recognition on Long-Tailed Domains. In Proceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 5671–5679. ↩︎

  57. S. Guo, J. Xu, D. Chen, C. Zhang, X. Wang, and R. Zhao. 2020. Density-Aware Feature Embedding for Face Clustering. In Proceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 6698–6706. ↩︎

  58. W. Hu, Y. Huang, F. Zhang, and R. Li. 2019. Noise-Tolerant Paradigm for Training Face Recognition CNNs. Proceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (2019), 11879–11888. ↩︎

  59. Y. Zhong, W. Deng, M. Wang, J. Hu, J. Peng, X. Tao, and Y. Huang. 2019. Unequal-Training for Deep Face Recognition With Long-Tailed Noisy Data. In Proceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition (CVPR). ↩︎

  60. X.Wang, S. Wang, J. Wang, H. Shi, and T. Mei. 2019. Co-Mining: Deep Face Recognition With Noisy Labels. In Proceedings ofthe IEEE International Conference on Computer Vision (ICCV). 9358–9367. ↩︎

  61. Z. Wang, X. Tang, W. Luo, and S. Gao. 2018. Face Aging with Identity-Preserved Conditional Generative Adversarial Networks. Proceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (2018), 7939–7947. ↩︎

  62. K. Sohn. 2016. Improved deep metric learning with multi-class n-pair loss objective. In Advances in Neural Information Processing Systems. 1857–1865. ↩︎

  63. J. Liu, Y. Deng, T. Bai, Z. Wei, and C. Huang. 2015. Targeting Ultimate Accuracy: Face Recognition via Deep Embedding. (2015). arXiv:cs.CV/1506.07310 ↩︎

  64. Y. Sun, C. Cheng, Y. Zhang, C. Zhang, L. Zheng, Z. Wang, and Y. Wei. 2020. Circle Loss: A Unified Perspective of Pair Similarity Optimization. In Proceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 6398–6407. ↩︎

  65. L. Yang, D. Chen, X. Zhan, R. Zhao, C. C. Loy, and D. Lin. 2020. Learning to Cluster Faces via Confidence and Connectivity Estimation. In Proceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 13369–13378. ↩︎

  66. L. Yang, X. Zhan, D. Chen, J. Yan, C. C. Loy, and D. Lin. 2019. Learning to cluster faces on an affinity graph. In Proceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2298–2306. ↩︎

  67. Y. Shi and A. K. Jain. 2020. Generalizing Face Representation with Unlabeled Data. ArXiv abs/2003.07936 (2020). ↩︎

  68. A. RoyChowdhury, X. Yu, K. Sohn, E. Learned-Miller, and M. Chandraker. 2020. Improving Face Recognition by Clustering Unlabeled Faces in the Wild. In Proceedings ofthe European Conference on Computer Vision (ECCV). ↩︎

  • 5
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值