倾斜人脸数据集及其验证（A TILT-ANGLE FACE DATASET AND ITS V ALIDATION）

AYu~

已于 2022-11-29 18:46:18 修改

阅读量1.2k

点赞数

文章标签：深度学习人工智能

于 2022-11-28 21:03:32 首次发布

本文提出了一种名为TFD的倾斜角度人脸数据集，用于改善俯视图下的人脸检测和识别。TFD包含6个俯视角度的11,124张面部图像，覆盖了927名受试者。实验结果显示，基于TFD训练的模型在俯视图人脸识别中显著提高了精度，验证了数据集的有效性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

摘要：

由于监控摄像机通常安装在较高的位置以俯视目标，在公共视频监控环境中俯视图倾斜面是常见的。基于深度学习模型的人脸识别方法已经取得了很好的效果，但在俯视监控场景上还有很大的差距。人脸识别的结果不仅取决于模型的结构，还取决于训练样本的完整性和多样性。现有的多姿态人脸数据集不能覆盖完整的俯视图人脸样本，由此训练的模型不能提供令人满意的精度。为此，本文首创了一种多视角倾角人脸数据集(TFD)，该数据集由精心设计的架空捕捉设备采集。TFD包含来自927名受试者的11,124张面部图像，覆盖了俯视图上的各种倾斜角度。为了验证构建的数据集的有效性，我们进一步使用分别由WiderFace、Webface和我们的TFD训练的相应模型进行了全面的人脸检测和识别实验。实验结果表明，在俯视图情况下，我们的TFD大大提高了人脸检测和识别的精度。TFD可在https://github.com/huang1204510135/DFD获得。

索引术语：人脸数据集，俯视图，倾斜人脸，人脸检测，人脸识别。

1.介绍

人脸是物体识别中最重要的生物特征之一。目前先进的人脸识别技术已经在公共数据集上取得了最先进的结果。然而，公共视频监控中行人的人脸识别遇到了更为复杂的环境。头顶成像等具有挑战性的场景给可信人脸识别带来了很大的困难。当行人走近监控摄像头，俯视图只能看到额头。由于缺乏整体的面部信息，俯视图姿态的人脸识别尤为困难。

卷积神经网络(CNN)的结构和数据集是基于CNN的任务中的两个基本问题。到目前为止，现有的数据集在数量上已经足够，但其中大多数数据包含的面部姿势有限。因此，他们训练的模型在有倾斜角度的人脸上很难有令人满意的表现。行人面部识别的深度网络需要有更多关于倾斜角度的面部信息。在这项工作中，我们构建了一个专门用于俯视图人脸检测和识别的倾斜角度人脸数据集(TFD)。据我们所知，这是第一个用于俯视图成像条件的架空人脸数据集。TFD可以应用于CNN的人脸识别训练或其他任务中，不仅可以用于学术研究，也可以用于实际应用。

为了验证TFD的有效性，我们首先进行了人脸检测实验，实验结果表明，与其他数据集(如WiderFace)相比，TFD可以贡献更多的倾角信息。随后进行了人脸识别实验，再次证实了TFD极大地提高了倾斜人脸的识别能力。

主要贡献突出说明如下。

(1)我们提出了一个特定的倾斜角度面部数据集，包含6个俯视图面部姿势，包括来自927名受试者的共11,124张面部图像。

(2)我们通过实验证实，TFD在很大程度上提高了倾斜场景下基于CNN的人脸检测和识别任务的性能。

2.相关工作

大多数监控场景下的人脸图像都是从俯视图获得的。这种位姿变化造成的识别困难仍然是一个未解决的问题。因此，网络在倾斜角度下检测和识别人脸的能力是迫切需要的。在人脸识别任务中，数据集和算法是两个重要问题。

2.1. 公共人脸数据集

虽然所有可用的数据集都包含不同姿势的人脸图像，但它们大多是随机收集的，视图变化缺乏多样性。表1列出了一些典型的多视图人脸数据集。如图所示，大部分是在偏航方向(the yaw direction)采集的，不同角度的图像是随机采集的。在俯仰方向上收集了少量的数据集，但它们显示出有限的倾斜视图变化。相比之下，TFD在俯仰方向上包含6个倾角，可以为现有网络提供足够的俯视图信息。它是目前最完整的一个姿态变化的音高(pitch)方向。

2.2. 人脸检测与识别

在人脸检测中，通常选择三个检测器作为基准。Faster R-CNN在各种对象检测基准测试中显示了令人印象深刻的结果，该基准测试基于RPN提取的建议来检测目标。YOLOv3允许在单一网络中统一提议、特征提取、对象分类和定位，并将检测任务转变为端到端回归问题。MTCNN更适用于人脸检测任务。它利用人脸检测和对齐的内在相关性来提高性能。目前，基于CNN的方法几乎占据了人脸识别的主导地位，而我们关注的是最新的两种模型。CosFace在人脸识别中引入了大余弦损耗。ArcFace提出了一个附加的角边缘损失，以获得人脸识别的高识别力特征。以上模型将作为本文验证实验的基准。

3.建议的TFD数据集

3.1 摄像系统

目前，多角度人脸样本的采集有两种较为幼稚的方法:在线采集和手动拍摄。在线方法可以获得大规模的图片，但姿势是随机的。对于后者，研究对象数量有限，角度变化不完全。因此，它们都不能满足俯仰方向全覆盖角的要求。为了获得完整的俯视图，我们设置了一个照片采集设备，该设备由6个相机组成，呈弧形排列。捕获系统采用1280 × 720像素的CCD相机ASHU H601。所有六个摄像机都安装在一个半径为0.4m的垂直半圆臂上，每个摄像机对应一个垂直角度，从0°到75°，间隔为15°。它们通过扩展的USB接口连接到计算机上，并使用编程的采集软件同时进行拍摄。我们的摄影采集设备布局如图1所示。每个受试者都坐在可调节高度的椅子上。在拍照之前，椅子被调整以保持受试者的头部在1.1米高的手臂的中心。在实践中，我们捕捉室内和野外的图像，包括不同的背景和光照条件。

3.2 统计和注释

一个明显的模型应该保持对类间差异的敏感性，同时对同一主题给出稳定的结果。我们采取以下措施促进TFD的多样性。

1)属性。为了避免单一背景的限制，拍摄对象的眼镜、胡子、配饰等都有变化。此外，我们在室内和野外都采集了TFD，以确保成像条件完全服从无约束的自然环境。

2)性别和年龄。研究对象几乎平均覆盖了男性和女性，年龄在4到71岁之间。

由于TFD的特殊性，自动裁剪人脸图像的算法(如MTCNN)无法准确提取大倾斜角下的人脸区域。因此，我们采用半自动的方法代替。首先，我们使用MTCNN获得初步的标签结果，然后进一步进行人工校正或补充注释。注释在左上角生成坐标(x1, y1)，在右下角生成坐标(x2, y2)。为了适应不同的模型，我们将注释存储在符合PASCAL VOC2007[19]格式的xml文件中。

图2显示了每个年龄组6个角度的裁剪脸，其中脸的像素为182×182。可以看到，随着俯仰角的增加，面部轮廓变得越来越不完整。特别是额头遮挡嘴和下巴的自遮挡现象。在这种情况下，人脸识别的准确性不可避免地大大降低。

4.基准实验

4.1 人脸检测验证

为了进行综合评价，采用TFD和Yale B作为测试集。Yale B包含多种变化，如角度、姿势、灯光、遮挡等。为了公平起见，我们随机选择了200张只在角度上发生变化的图片，并手动对它们进行标记。此外，为了验证TFD的实用性，我们在真实场景中随机采集并手动标记200张图片作为另一个测试集。训练和测试数据集的详细信息如表2所示。我们重新训练并比较了三个不同的模型，即Faster R-CNN、YOLOv3和MTCNN。每个模型将分别使用WiderFace和TFD重新训练成两个版本。性能指标采用AP(平均精度)、Recall(召回率)和IOU(并集交集)。

如表3所示，经过TFD训练的模型在倾斜面上的AP、IOU和Recall均有明显提高。在三个网络中，Faster R-CNN的性能最好，减少了不准确检测和误检测。虽然MTCNN致力于人脸检测，但它在这个实验中表现最差。这可能是由于MTCNN依靠面部关键点来实现检测，而俯视图上倾斜的人脸占用的面部特征较少。

表4表明Faster R-CNN和YOLOv3在Yale B(倾斜)上都表现出良好的性能。Yale B更关注光照的变化而不是姿势的变化。此外，MTCNN不如前两者。表5显示了6个模型在真实场景中的结果。总的来说，使用TFD训练的模型的性能优于WiderFace。这证明了我们的TFD在俯视图场景下确实提高了网络对倾斜面的检测能力。

TFD测试的6个模型与真实场景的P-R (Precision-Recall)曲线如图3所示，显示了Precision与Recall的关系。我们再次看到，使用TFD训练的模型优于相应的模型。

可视化结果如图4所示。可以看出，使用TFD训练的网络取得了良好的效果，几乎没有错检。具体来说，对于75°的大倾斜角度，由于此时头部挡住了脸部，所以无论是Faster R-CNN还是WiderFace的YOLOv3都无法检测到脸部，而TFD仍然能够完成可靠的检测(见图4的最后一列)。对于MTCNN, WiderFace同时遗漏了60°和75°，而TFD只遗漏了75°。图5是6个模型在Yale B(倾斜)和真实场景上的几个结果。正如我们前面所解释的，因为TFD没有显式地训练面部关键点，所以它在MTCNN中的表现比WiderFace差。对于真实场景，使用TFD训练的网络得到了最好的结果，这再次证实了TFD对真实场景下的人脸检测任务有很大的益处。

4.2 人脸识别验证

基于ArcFace和CosFace这两个知名的人脸识别模型，我们进一步验证了TLD在人脸识别任务中的有效性。

在本实验中，我们只使用WebFace或TFD和WebFace的混合数据集训练基准模型。如表6所示，混合数据集训练的模型显著优于仅使用WebFace训练的模型，无论是ArcFace还是CosFace。这证实了TFD对倾斜角度人脸识别确实是有利的。注意，TFD样本在训练和测试数据集中没有重叠。

5.总结

本文提出了一种倾角人脸数据集(TFD)，在该数据集中，人脸样本在头顶采集。TFD包括倾斜视图中6个特定角度的927个受试者的11,124张图像。它可以为现有的人脸检测和识别网络提供倾斜角度信息，并可与其他数据集一起使用，以提高真实视频监控场景下的人脸识别模型的性能。基准人脸检测与识别模型的对比实验验证了该方法的有效性。未来，我们将进一步扩大数据集的容量，并基于这个宝贵的数据集开发用于实际视频监控应用的人脸识别模型。