Face Recognition（一综述）

最新推荐文章于 2024-11-05 16:16:55 发布

人生简洁之道

最新推荐文章于 2024-11-05 16:16:55 发布

阅读量2.6k

点赞数 5

分类专栏：笔记人脸识别

Adress：CSDN - Life Recoder. PS: 爬虫、网站、公众号等侵权的当个人吧！乱写的笔记 1秒钟成了你的原创？

本文链接：https://blog.csdn.net/BeBuBu/article/details/116988907

版权

笔记同时被 2 个专栏收录

18 篇文章

订阅专栏

人脸识别

4 篇文章

订阅专栏

本文综述了人脸检测与识别的关键技术和发展趋势，涵盖了人脸检测、预处理、表示等多个环节，重点介绍了深度学习方法在这些任务中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

主要参考：The Elements of End-to-end Deep Face Recognition: A Survey of Recent Advances，2021.5

Overview

在这里插入图片描述

1 Face Detection 在图像或视频中定位人脸
- Traditional Methods：Viola-Jones Face Detector / Deformable Part Models
- DCNNs
2 Face Preprocessing 将原始自然的人脸校正为规范的视角并且进行裁剪
- Face Alignment 利用空间变换将脸部扭曲到参考 脸部界标（Facial Landmarks） 的规范位置
- Face Frontalization 直接从输入图像中生成对齐的面部，合成正面人脸通常用于处理大型姿势人脸识别
3 Face Representation 从经过预处理的人脸图像中提取判别特征以进行识别
- Traditional Methods：将人脸图投影到低维子空间中，Eigenfaces / Fisherfaces
- DCNNs

Face Detection

人脸识别系统的第一步，输出带有置信度的人脸检测框Bbox
主要步骤在于特征构建和人脸背景区分
这一步的主要挑战就是目标检测任务中常见的挑战：分辨率变化、尺度、姿态、照度以及遮挡等
方法分类：
- Multi-stage / Single-stage 方法是否包含候选矩形框
- Anchor-base / Anchor-free 方法是否使用了锚
- Multi-task Learning方法
- CPU Real-time方法
- Problem-oriented方法

发展历程

在这里插入图片描述

整体趋势：从多阶段向单阶段方法转变，Anchor-free惊鸿一瞥，Anchor-based长胜将军！

在这里插入图片描述

Multi-stage Methods

coarse-to-fine manner / proposal-to-refine strategy
思路：第一阶段采用滑动窗口，以特定比例（长宽比）提出候选边界框，后续阶段拒绝 False Positive，并以更高的分辨率（精确度）改进剩余的框
在这种方案下，级联式（cascaded）¹ 架构自然是粗到细面部检测的有效解决方案
因为人脸检测属于特殊化的通用目标检测，所以人脸检测从中借鉴了很多！如 Faster R-CNN RPN
一些技巧：improved loss design, online hard example mining（OHM）, multi-scale training and test strategies, feature concatenation etc.
后续的refine模块也有很多研究：如using the auxiliary facial information, or sharing the classification parameters across anchors of different ratio.
此外尺度变化也十分重要，保持尺度不变性，或者说如何对人脸当前的尺寸进行估计是十分关键！如 $S A F D$ ²， $S^{2}AP$ ³
多阶段人脸检测方法的训练有 分阶段训练策略：每个阶段都有自身的目标函数，但是可能导致 inferior optimization；因此CascadeCNN和Faster R-CNN都设计了 joint training strategy ⁴
Joint 训练策略 ⁴：
经典算法
~~- Cascade CNN 为2015年提出的级联人脸检测方法，和2018年的Cascade R-CNN 有什么联系呢 TODO~~
~~- CMS-RCNN 提出了一个基于 CNN 的背景多尺度区域，以利用人脸和身体周围的特征来完成小人脸检测。~~

Single-stage Method

不含 Proposal 阶段，相对于二阶段方法精度低（正负样本数量不均衡）速度快
SSD（Single Shot multibox Detector）：dense anchors with different aspect ratios 和 scales
SSD 是对象检测的主流框架，因为它的运行速度比 R-CNN 快得多，同时保持了可比的精度；而原始的SSD不适合于人脸大幅度尺度变换的情况，尤其是 small faces！所以就有很多相关的改进！⁵
许多最先进的面部探测器采用金字塔网络（FPN）功能，该网络由自上而下的架构组成，采用跳层链接，并合并高级和低层功能进行检测（将高底层信息融合）
因此很多单阶段人脸检测以 FPN 为 baseline！如 RetinaFace ⁶，DSFD⁷，PyramidBox++⁸，SSH⁹，PyramidBox¹⁰，
从 RefineDet方法启发得到 SRN ¹¹
后续算法 VIM-FD，ISRN，AInnoFace，RefineFace 对 SRN 方法进行改进！改进的技巧有：training data augmentation, improved feature extractor and training supervision, anchor assignment and matching strategy, multi-scale test strategy etc.
还要很多基于点的目标检测方法（也是属于单阶段的目标检测方法），如DenseBox、UnitBox 以及 CenterFace，这类方法不需锚点（Anchor-free）后续会介绍！

Anchor-base/free Method

有锚方法发展历史长且效果好，是目前的主流；有锚方法在特征图上预设了密集的锚，然后在这些锚上完成一次或多次的分类和界框回归，最后输出所接受的锚作为检测结果。因此，锚的分配（长宽比和尺度大小）和匹配策略（Assignment Strategy）对检测精度至关重要。
$S^3FD$ 提出的锚匹配比例补偿可以有效地改善小脸和外脸的召回，此外还利用最大化标签机制减少了大量底片，这也是锚基机制中经常出现的问题。Zhu 等人¹² 引入了预期的最大重叠分数 ( $E M O$ ) 来评估匹配锚的质量，并提出了几种技术来促进真正样本获得高 $E M O$ 分数。由于数据集中正负样本不平衡，组采样 ¹³ 按其秤对 $a n c h o r$ 按照尺度大小进行排序，并在训练期间为每组保持相同数量的样本。最近， $H A M B o x$ 提出了一个在线的锚补偿策略，以帮助检测外脸，可以利用未匹配上的锚来提供有利的回归。
有锚方法在人脸检测方面主导了最先进的状态，但有2个弱点：
- 预设锚的超参数（例如，比例、步幅、比例、数量）需要根据特定数据集的人脸形状的情况进行调整，这限制了检测器的泛化能力。
- 密集的锚增加了计算成本，带来了正负锚（正负样本）的不平衡问题。
无锚方法 ( $C o r n e r N e t, F C O S, F S A F$ ¹⁴) 在一般对象检测中吸引了越来越多的关注。在人脸检测方面，近年来出现了一些开拓性的作品。 $D e n s e B o x$ 和 $U n i t B o x$ 尝试预测像素分界框和信心得分。此外 $C e n t e r F a c e$ 将人脸检测视为关键点估计的一项普遍任务，它预测了特征地图中的面部中心点和界框的大小。
- 无锚探测器可以摆脱预设的锚，实现更好的通用能力。
- 不过在检测精度方面，需要进一步探索无锚点方法，才能在培训过程中更好地对误报进行稳健性和稳定性。

Multi-task learning methods

基于多任务学习的方法旨在通过共享视觉表示来解决问题和其他相关任务。在这里我们介绍了多任务学习方法，训练面部探测器与相关的面部任务或辅助监督分支，以丰富功能表示和检测的稳健性。
$M T C N N$ 是最有代表性的，它利用了三组件的级联网络发现在Facial Landmarks 和 Bbox 之间的内在相关性
$H y p e r F a c e$ 融合了低/高层功能，同时执行四项任务：face detection, facial landmark localization, gender classification and pose estimation.
$R e t i n a F a c e$ 集成 face detection, facial landmark localization and dense
3D face regression 在一个框架中。（参考自RetinaNet）
还可以接收其他分支如分割分支、无锚分支等。都可以提升对于人脸检测的训练过程

CPU real-time methods.

在实际应用中，特别是在非 GPU 设备上，很多算法的效率还不够
不过也有很多基于轻量化框架的人脸检测方法
通常，当输入大小或通道变大时，卷积操作会消耗更多时间。为了加快速度，轻量级骨干（RetinaFace）和快速消化的卷积层（FaceBoxes；Faceboxes¹⁵）是有关网络体系结构的常见做法。
知识蒸馏是提高轻型面部检测器性能的另一种选择 FBI ¹⁶
此外，引入了感兴趣区域（RoI）卷积¹⁷以仅在RoI区域上计算卷积。

Problem-oriented methods

这小节介绍一些属于人脸检测中的 Specific Challenges

a wide range of scale

各种小技巧：scale selection, multi-scale detection, dense anchor setting, scale balancing strategy etc.
如2017年的找小脸的算法 HR ¹⁸
为处理模糊和小脸的检测，可以采用 super-resolution 方法先处理之后在进行检测 ¹⁹

partially visible faces (Occlusion)

有很多方法开发了为检测被遮挡的人脸的specific技术 ²⁰
Faceness方法根据面部部位的出现和空间分布情况来计算置信评分，因此被遮挡人脸也可以有很高的置信度
FAN方法在数据增广中引入对人脸进行遮挡的操作，并引入Anchor-level 注意力方法以强调人脸中区域性的特征

in-plane rotation

平面内旋转也是人脸检测中的挑战，为了解决这个问题 PCN 采用逐步校准候选人脸区域以防止其朝着直立方向（upright）旋转 ²¹

Metrics and Datasets

Metrics

人脸检测的指标和通用目标检测的指标相同
AP（average precision）：PR曲线的AUC近似值
- PR曲线基于检测框和Gt框的 IoU值
ROC曲线（receiver operating characteristic）
FPS

Datasets

在这里插入图片描述

FDDB 是一个经典的无限制人脸检测，包括低分辨率人脸、遮挡人脸和困难姿态变化 difficult pose variations；值得注意的是FDDB的GT标注为椭圆而不是传统的矩形框
AFW包括很多 cluttered 背景和 large variations（age、sunglasses、make-ups 和 expressions）
PASCAL faces 是一个从PASCAL的people类别中截取的
MALF 用于野外环境下人脸检测的细粒度评测
MAFA 是一个遮掩人脸检测benchmark，包括多种旋转和遮挡的情况
还有一些可用于用于训练集的数据集：
- ALFW只用于训练
- WIDER FACE 包括训练、验证和测试数据集，每个子集使用 EdgeBox方法确定出的 easy、medium和hard 三个难度级别；WIDER FACE 在过去几年极大促进了人脸检测Community

Challenges and Future Work

挑战：Running efficiency & Image variations
- Efficiency：最先进的探测器已经取得了很大的进步，但它仍然需要检测精度和效率之间的权衡。例如在许多应用中，调整输入图像的大小是探测器加速的常见做法，同时也会损害小脸的召回。
- Image Variations：在不受约束的条件下，如监控录像，具有较大变化的定位和遮挡的人类面孔往往被探测器遗漏，而不同的图像背景往往导致误报。此外，检测具有广泛规模的面孔也是一个很大的挑战。
未来工作：
- Effective and unified anchor settings：assignment and matching strategy, attributes tuning, and sampling strategy，然而针对数据集精细调整的anchor设置会影响到算法的泛化能力！所以是否有统一有效的锚设置？
- Anchor-free face detection framework
- More efficient detection framework：许多面部探测器在重型骨干网络的基础上实现了出色的检测精度，而轻量级探测器的效率在移动和嵌入式设备上更为重要。因此，在设计更高效的检测框架的同时保持检测精度至关重要。

Face Preprocessing

人脸识别系统的第二步，对人脸检测结果进行视角规范化校正，使用空间转换技术将人脸校准为规范化布局 Given the detected face region, face preprocessing aims to calibrate unconstrained faces to a canonical layout for facilitating the downstream tasks of recognition and analysis, which is an essential intermediate step in the end-to-end face recognition system.
两个主流研究方向面部对齐和面部正面化（face alignment & face frontalization）
前提：人脸有常规的结构组成，各组件类似，相对空间关系类型
Facial Landmarks：又叫Facial Keypoints，以用于相似性变换和仿射变换的参考
Face Alignment
- 为了去除比例、旋转和翻译变化，面部对齐采用空间转换，在Facial Landmarks的帮助下将人脸校准到预先定义的规范布局
- 某些方法无需依赖面部地标仍可生成对齐的面部。因此我们将面部对齐归类为 landmark-based methods and landmark-free methods！
- coordinate regression based approaches 点坐标的回归任务
- heatmap regression based approaches 输出与每个点对应的可能性响应映射
- 3D model fitting based approaches 基于 3D 模型拟合的方法从 2D 图像预测 3D 人脸形状，然后将其投影到图像平面上以获取 2D 地标
Face Frontalization 通过学习转换参数，从输入中直接输出对齐的面。
- In addition, face frontalization techniques can also be applied in face preprocessing to tackle large pose variations by synthesizing identity-preserving frontal faces from non-frontal views. 正面化旨在从非正面视图合成正面，可用于帮助大姿势人脸识别和面部数据增强。
方法分类
- Landmark-based Face Alignment
  - coordinate regression
  - heatmap regression
  - 3D model fitting
- Landmark-free Face Alignment
- Face Frontalization

在这里插入图片描述

Landmark-based Face Alignment

使用 Facial Landmarks 的真实位置作为参考，进而空间转换，用于人脸姿态的校正
这类方法的核心任务是基于landmark的alignment任务

Coordinate regression

针对 landmarks 的点坐标回归任务，即得到专注于学习从人脸图像到landmarks坐标向量的非线性映射
这部分有两块常见的应用： ① Cascaded Regression ²² ② Multi-task Learning
而 RNN 在级联回归 refinement 过程中可以对历史信息进行建模，如 RAR²³ 和 MDM²⁴ 方法都采用了 CNN + RNN 的方法结合来提取特征，精炼预测结果！
多任务学习可以将 landmarks 和相关的人脸任务相结合 ²⁵ ²⁶，这些方法其实初衷是为了人脸检测任务而设计的，通过 landmarks 检测分支，提升人脸检测的精度；而 TCDCN ²⁷ 和 JFA ²⁸ 方法结合了辅助的人脸属性，如表情、性别和人头姿态，来提升 facial landmarks 定位任务！
级联回归任务的performance 极大的取决于初始位置预测，而且多回归器也造成极大的计算复杂度；为了应对这些级联回归问题，self-iterative regression, direct shape regression, and reasoning-decision regression etc. ²⁹ ³⁰
坐标回归任务的损失函数，大多采用 L1、L2 和 Smoothed L1 损失函数，这些回归函数会对样本中的 Outliers 高敏感！因此 wing loss ³¹ 就被提出了！
- 由于这部分常采用 Normalized Mean Error（NME），和损失函数之间存在差异，会有 Gap；论文 ³² 采用了 Enhanced Normalized Mean Error loss 来消除这之间的间隔！
上述研究都是基于静态图像，而对于视频人脸landmark定位任务来说，如何跨帧利用时间信息是关键的问题！如方法 TSTN方法 ³³，该方法先基于单张图进行landmarks定位，再捕获空间一致性用于refinement！方法SBR方法 ³⁴ 将鼓励在视频训练过程中捕获landmarks检测之间的一致性！

Heatmap regression

和坐标回归不同，热图回归将回归各个landmarks的响应图，而Stacked Hourglass（HG）网络是最常用的方法！该类方法最先在姿态估计 Pose Estimation ³⁵ 里面有使用（关键点检测）！
Stacked Hourglass 在这里有很多的成功实现 ³⁶
通过全卷积网络进行的按像素的密集分类为热图回归任务提供了一种有效的方法；而沙漏结构可以看作是全卷积网络的一个实例。
除了沙漏结构以外，还有很多有效的网络设计：
- DeCaFA ³⁷，利用堆叠的全卷积U-Net来保持网络中特征图的空间分辨率，并利用 Landmark-wise Attention Maps 来提取当前估计值附近的局部信息
- High-resolution network (HRNet) ³⁸，维持高分辨率的表现
前一节提到的 Wing Loss 是用于坐标的回归，而直接用在热图回归这里会存在正负样本不均衡的问题，对此 Wang采用加权惩罚的方式抑制人脸区域 ³⁶ ；而 PropagationNet方法 ³⁹ 提出了 Focal Wing Loss 来调整样本之间的权值！
一些 Landmarks可能存在有 ambiguous definition，特别是一些没有清晰特征的点，如脸颊上的点！而一些人脸遮挡也会造成不精确的标注！这两个问题会导致 landmarks的语义上的偏差从而降低了定位效果！
- 面部边界热图 ⁴⁰ 是提供面部几何结构以减少语义歧义的好选择
- Semantic Alignment ⁴¹
- KDN ⁴² 和LUVLi ⁴³ 建议同时估计面部标志和预测的不确定性，该不确定性可用于识别面部对齐失败的图像。
Large-scale Facial Landmark Dataset 的高精度标注任务复杂，可以采用半监督学习来缓解！⁴⁴、⁴⁵、⁴⁶
VIdeo中的人脸热图回归 ⁴⁷: ⁴⁸: ⁴⁹:

3D model fitting

考虑到2D面部界标和3D面部形状之间的显式关系，基于3D模型拟合的方法从2D图像重建3D面部形状，然后将其投影到图像平面上以获得2D界标。
与估计一组地标的常规2D方法相比，基于3D模型拟合的方法能够将人脸与成千上万个顶点的3D模型拟合，并以大姿势对齐它们。
3DDFA，DeFA，RDR，Faster-TRFA，FacePoseNet，PR-Net 等方法

Landmark-free Face Alignment

在不依赖面部标志的情况下输出对齐的面部
spatial transformer network (Spatial-TN) 方法
ReST、RDCFace
方法⁵⁰ 发现结果表明，过度对齐会损害后续的人脸识别，而人脸识别对于特征图上的对齐具有鲁棒性。因此他们提议在人脸识别的联合监督下学习特征图上的人脸对齐。