轻量级人脸检测算法实现专题之LFFD：A Light and Fast Face Detector for Edge Devices

最新推荐文章于 2024-08-23 07:39:23 发布

TJMtaotao

最新推荐文章于 2024-08-23 07:39:23 发布

阅读量2k

点赞数

分类专栏：人脸检测目标检测文章标签：计算机视觉

本文链接：https://blog.csdn.net/TJMtaotao/article/details/105850912

版权

目标检测同时被 2 个专栏收录

35 篇文章 3 订阅

订阅专栏

人脸检测

5 篇文章 0 订阅

订阅专栏

LFFD：A Light and Fast Face Detector for Edge Devices

Github star：9２４

参数量：6.1 M

一筐款通吃大小目标、支持各种设备的人脸检测器

paper：https://arxiv.org/abs/1904.10633

Github：https://github.com/YonghaoHe/A-Light-and-Fast-Face-Detector-for-Edge-Devices #MXNet

https://github.com/aoru45/LFFD-Pytorch #pytorch

图2。提出的网络的总体架构。主干有25个卷积层，分为四部分：小部分、小部分、中部分和大部分。沿着主干线，有8个损失分支负责检测不同尺度的人脸。整个主干网仅由conv 3×3、conv 1×1、ReLU和剩余连接组成。

LFFD：一种用于边缘检测的轻量快速人脸检测器

这篇文章是来自北京理工大学自动化研究所模式识别国家实验室信息技术研究室

Y onghao He∗1,2, Dezhong Xu∗1, Lifang Wu1, Meng Jian1, Shiming Xiang2, and Chunhong Pan2
1Faculty of Information Technology, Beijing University of Technology
2National Laboratory of Pattern Recognition, Institute of Automation, Chinese Academy of Sciences
yonghao.he@aliyun.com,xudezhong@emails.bjut.edu.cn,lfwu@bjut.edu.cn,
jianmeng648@163.com,{smxiang, chpan}@nlpr.ia.ac.cn

Abstract

人脸检测技术作为一项基础性的应用技术，一直部署在存储空间有限、计算能力低的边缘设备上。介绍了一种用于边缘检测的轻量快速人脸检测仪。该方法是无锚的，属于一级分类。具体来说，我们重新思考了在人脸检测的背景下，感受野（RF）和有效感受野（ERF）的重要性。本质上，某一层神经元的RFs在输入图像中有规律地分布，这些RFs是自然的“锚”。该方法结合了RF锚和合适的RF步长，理论上可以检测出大范围的100%覆盖的连续人脸尺度。深入了解ERF与人脸尺度之间的关系，是一种有效的单阶段检测方法。骨干网具有8个检测分支和公共层，计算效率高。在流行的基准上进行了全面而广泛的实验：宽面和FDDB。针对面向应用的场景，提出了一种新的评估方案。在新方案下，该方法具有较高的精度（宽面Val/检验-简单0.910/0.896，中等0.881/0.865，硬0.780/0.770，FDDB-不连续0.973，连续0.724）。引入多个硬件平台来评估运行效率。该方法具有较快的推理速度（NVIDIA TITAN Xp:131.45 FPS，640×480；NVIDIA TX2:136.99 PFS，160×120；Raspberry Pi 3 Model B+：8.44 FPS，160×120），模型大小为9mb。

1. Introduction

人脸检测是计算机视觉中一个由来已久的问题。在实践中，它是一些与人脸相关的应用的先决条件，例如人脸对齐[14]和人脸识别[31]。除此之外，人脸检测器通常部署在边缘设备上，如移动电话、IP摄像头和物联网（IoT）传感器。这些设备内存有限，计算能力低。在这种情况下，对人脸检测的精度和速度提出了更高的要求。

目前最先进的面部探测器已经通过利用预先训练过的重骨干，如VGG16[27]、Resnet50/152[7]和Densenet121[10]，在定罪基准宽脸[33]上实现了相当高的精确度。我们在更宽的面上研究了前5种方法，并在表1中给出了它们的精度。可以看出，这些方法的精度与实际应用中难以察觉的边缘间隙相似。用更复杂、更重的骨干来进一步提高准确性是困难的，也是不现实的。在我们看来，更好地平衡准确度和延迟对于将人脸检测应用到更适用的领域是至关重要的。

人脸检测是近十年来发展迅速的一般目标检测分支。Viola Jones 早期工作[29]提出了一个经典的检测框架——具有手工制作功能的级联分类器。其著名的追随者之一是聚合频道特性（ACF）[4，32]，它可以有效地利用频道特性。虽然上述方法可以获得较快的运行速度，但是它们依赖于手工制作的特征，并且没有进行端到端的训练，导致检测精度不高。

近年来，基于卷积神经网络（CNN）的人脸检测技术[36、39、16、3、28、13、30、34、9、38、40、20、37]取得了很大的进展，部分原因在于较宽的人脸基准的成功。这些方法大致可分为两类：两阶段法和一阶段法。两阶段方法[13，30]包括方案选择和定位回归，主要来源于R-CNN系列[6，5，26]。然而，单阶段方法[9，38，20，37，28，3，16，36]将分类和边界盒（bbox）回归相结合，总是同时实现基于锚和多尺度的检测。对于大多数单阶段方法，锚定设计和匹配策略是关键组件之一。为了提高计算精度，这些方法提出了基于重骨干的复杂模块。尽管上述方法可以达到最新的结果，但它们可能无法适当地平衡准确性和延迟。

本文提出了一种用于边缘检测的轻型快速人脸检测系统（LFFD），在检测精度和运行效率上达到了很好的平衡。该方法受到了单级多尺度目标检测方法SSD[17]的启发，对其他人脸检测方法也有一定的启发[16,28,38]。SSD的一个特点是为每个检测分支手动设计预定义的锚箱。这些长方体总是有不同的大小和纵横比，以覆盖具有不同比例和形状的对象。因此，锚定在大多数单阶段检测方法中起着重要的作用。对于一些人脸检测器[38，40，28，16]，复杂的锚定策略是贡献的关键部分。然而，基于锚的方法可能面临三个挑战：1）锚匹配无法充分覆盖所有的人脸尺度。虽然这可以被解除，但它仍然是一个问题；2）通过阈值IOU（交集对并集）来确定将锚与地真bboxes匹配。阈值是经验设定的，难以对其影响进行实证研究；3）不同尺度的锚定数量依赖于经验，可能导致样本不平衡和重复计算。

在我们看来，特征图中神经元的射频是固有的和自然的“锚”。射频可以轻松应对上述挑战。首先，在一定的RF尺度范围内可以预测人脸的连续尺度，而不是锚定方法中的离散尺度。其次，匹配策略是明确的，即当且仅当RF的中心落在groundtruth bbox中时，RF才与groundtruth bbox匹配。第三，RFs的数目是自然固定的，并且它们在输入图像中是规则分布的。此外，通过对ERF的深入理解，我们对人脸尺度和RF尺度的配对进行了定性分析，得到了一个具有8个检测分支的有效主干。主干网仅由公共层（conv3×3、conv1×1、ReLU和剩余连接）组成，比VGG16[27]、Resnet50[7]和Densenet121[10]轻得多。因此，最终的模型只有2.1M的参数（相对于VGG16-138.3M和Resnet50-25.5M），并且达到了更高的精度和运行速度，这使得它适合于边缘设备。

总之，本文的主要贡献包括：

•研究了RF、ERF与人脸检测的关系。相关的理解推动了网络设计。

•我们引入射频以克服以前基于锚的策略的缺点，从而产生无锚方法。

•我们提出了一种新的具有公共层的主干网，用于精确快速的人脸检测。

•在多个硬件平台上对基准宽面和FDDB进行了广泛而全面的实验，以坚定地证明所提出的边缘设备方法的优越性。

2. Related Work

自十年前以来，人脸检测引起了人们的广泛关注。

早期的作品早期的人脸检测器利用手工制作的特征和级联分类器来检测滑动窗口形式的人脸。Viola Jones人脸检测器[29]使用Adaboost和类似Haar的特征来区别地训练人脸分类器。随后，利用更有效的手工制作功能[21、41、32]和更强大的分类器[1、22]成为主流。这些方法都不是端到端训练，分别对待特征学习和分类器训练。虽然获得了较快的运行速度，但仍不能获得满意的精度。

基于CNN的方法目前基于CNN的人脸检测方法主要有两级（6，5，26）和一级（17，23，24，25）的一般目标检测。[13]和[30]都基于更快的R-CNN[26]，将原来更快的R-CNN应用于人脸检测。Zhang等人。[35]提出了一种内级联结构的级联CNN用于粗到细人脸检测。目前，单级人脸检测技术占主导地位。MTCNN[34]以滑动窗口的方式执行人脸检测，并依赖于图像金字塔。HR[9]在某种程度上是MTCNN的高级版本，也需要图像金字塔。图像金字塔具有速度慢、存储成本高等缺点。S3FD[38]在设计检测分支时考虑了射频，提出了一种提高命中率的锚匹配策略。在[40]中，Zhu等人。通过提出一种鲁棒的锚生成和匹配策略来检测小人脸。研究结果表明，锚定相关策略对人脸检测至关重要。在S3FD[38]之后，金字塔盒[28]使用低级特征金字塔层（LFPN）增强主干，以实现更好的多尺度检测。SSH[20]构造了三个与上下文模块协作的检测模块，用于尺度不变的人脸检测。DSFD[16]具有特征增强模块、早期层监控和改进的锚匹配策略以更好地初始化的特点。S3FD、PyramidBox、SSH和DSFD使用VGG16作为骨干，导致模型大，计算效率低。Facebox[37]旨在通过快速减小输入图像的大小，使面部检测器实时运行。具体来说，它在四层（两个卷积层和两个池层）之后达到32的大跨距。虽然facebox的运行速度很快，但它放弃了对小人脸的检测，导致在较宽的人脸上的精度相对较低。与传统的人脸检测方法不同，该方法对小人脸检测的处理非常细致，同时实现了快速的运行速度和大范围的覆盖。可以观察到，最新技术方法使用的网络往往变得更复杂和更重。在我们看来，以牺牲运行速度为代价来获得微小的精度改进是不适合实际应用的。

3. Light and Fast Face Detector

在本节中，我们首先回顾了射频的概念及其与Sec中人脸检测的关系。3.1。然后是秒。3.2描述了使用RFs作为天然“锚”的合理性和优势。随后，提议的网络的细节在Sec中描述。3.3。最后，提出了Sec网络培训的规范。3.4。

3.1. Revisit RF in the Background of Face Detection

本文首先简要介绍了射频及其特性。RF是脑图像的一个定义区域，它影响相应神经元的激活。RF决定神经元在原始输入中能看到的范围。直观地说，如果目标被某个射频包住，则可以很好地检测到目标，且概率很高。一般来说，浅层神经元的RFs较小，深层神经元的RFs较大。RF的一个重要特性是，每个输入像素对神经元的激活贡献不同[18]。具体来说，位于RF中心附近的像素具有更大的影响。当像素远离中心时，影响逐渐减小。这种现象被称为有效感受野（ERF）。ERFs固有地存在于神经网络中，呈现高斯分布。因此，使目标物体处于射频中心也很重要。所提出的LFFD得益于上述观察结果。

人脸检测是一般目标检测的一个著名分支，具有一定的特点。首先，大脸蛋由于其不可移动的部分，如眼睛、鼻子和嘴巴，几乎是僵硬的。虽然有面部表情变化、头发遮挡等不受约束的情况，但大脸还是可以分辨的。其次，小脸蛋和大脸蛋必须区别对待。微小的脸总是有无法识别的外观（一个例子如图1所示）。人类甚至很难通过只看到一张小脸的面部区域来做出面部/非面部的决定，基于CNN的分类器也是如此。随着更多的上下文信息，包括脖子和肩膀，微小的脸变得更容易识别。详细讨论可参考[9]。

图1。小脸检测。左上角的图像只包含一个面，右上角的图像用足够的上下文信息描述一个面。不难看出，随着上下文信息的逐渐增多，人脸变得更加容易识别。下半部分描述了RF与ERF检测微小人脸的关系。

基于以上理解，不同大小的人脸需要不同的RF策略：

•对于小/小脸，ERFs必须覆盖人脸以及足够的上下文信息；

•对于中脸，ERFs只需要包含很少的上下文信息；

•对于大脸，仅保留在RFs中就足够了。

这些策略指导我们设计一个有效的主干。

3.2. RFs as Natural “Anchor”

一级探测器的主要特点是预先定义bbox锚。为了检测不同的对象，锚具有多种纵横比和大小。这些锚始终是冗余定义的。在人脸检测方面，使用1:1长宽比锚定是合理的，因为人脸是近似正方形的，这在[38，37]中也提到过。如果核的宽度和高度相等，RFs的形状也是正方形的。该方法将RFs视为天然的“锚”。对于同一层的神经元，它们的rf在输入图像中有规律地平铺。一旦网络建成，RFs的数量和大小就固有地决定了。

对于匹配策略，该方法采用了一种简洁明了的方法，即当且仅当RF的中心落在groundtruth bbox中时，RF与groundtruth bbox匹配，而不是阈值IOU。在典型的基于锚的方法S3FD[38]中，Zhang等人。分析了电流变液的影响，特别是对微小面进行了锚定加固设计。尽管提高了锚的命中率，S3FD仍然会导致锚的不平衡问题（小面锚太多），必须通过额外的方法来解决。然而，该方法通过控制射频步幅，理论上可以达到100%的人脸覆盖率。此外，射频与我们的匹配策略可以自然地处理连续的脸尺度。例如，100像素的RFs能够预测20像素到40像素之间的面。这样就大大缓解了锚杆失稳问题，对各标度的工作面进行了同等的处理。

基于上述讨论，我们没有创建任何锚，并且所提出的方法没有真正地将锚与groundtruth bboxes匹配。因此，建议的方法是无锚。

3.3. Network Architecture

根据以上分析，我们可以设计一个专门的人脸检测主干。有两个因素决定了丢失分支的位置-RFs的大小和跨距。RFs的大小保证了学习到的人脸特征是健壮和可识别的，而步幅保证了100%的覆盖率。图2示出了所述网络的总体架构。该方法可以检测大于10像素的人脸（人脸大小由长边表示），因为宽的人脸基准数据集需要检测大于10像素的人脸。可以看出，提出的主干线是一个阶段，由四部分组成。关于损失分支的具体信息见表2。

表2。有关推荐网络的详细信息。

小部分有10个卷积层。前两层使用步幅4和步幅2对输入进行下采样。因此，本部分中的其它卷积层的RFs在步骤4中。一个关键的原则是：在保持100%的面部覆盖率的同时，尽可能快地减少输入。这一部分有两个损失分支。损失分支1源于对于连续面标度10-15，RF尺寸为55的c8。类似地，对于连续面标度15-20，损耗支路2来自RF尺寸为71的c10。显然，我们可以确保至少两个RFs的中心可以落在最小的面上，从而实现100%的覆盖率。有一种特殊情况，一个中心可能同时落在两个以上的面上，在这种情况下，相应的RF被直接忽略。正如我们在第二节讨论过的。3.1，微小的人脸需要更多的上下文信息，而ERFs比RFs小。为此，我们使用的RFs比平均面部比例要大得多。分支1和分支2的RFs和平均面部比例分别为4.4和4.0。在表2中，这类比率从4.4逐渐降低到1.3，因为较大的面需要较少的上下文信息。在骨干网中，所有卷积层的核大小均为3×3。然而，分支卷积层的核大小是1×1，这并不改变RFs的大小。在每个分支中，有两个分支，一个用于人脸分类，另一个用于bbox回归。

小部分负责20-40和40-70两个连续的面标。该部分中的第一卷积层c11将特征映射下采样2×。对于随后的部分，它们的第一卷积层完成相同的功能。在很小的一部分中，与小部分8相比，RF的增加速度变为16。因此，需要较少的卷积层来达到目标射频大小。中间部分类似于小部分，只有一个分支。

在主干的末端，大部分有七个卷积层。由于特征映射较小，这些层容易在不增加过多计算增益的情况下扩大检测范围。这部分有三个分支。由于大的人脸更容易被发现，RFs和平均人脸尺度的比率相对较小。

该方法可以在一次推理中检测出10到560像素的大范围人脸。整个主干网仅由conv 3×3、conv 1×1、ReLU和剩余连接组成。主要原因是conv 3×3和conv 1×1由于应用最为广泛，因此被cuDNN∗、ncnn∗、mace‡和paddle mobile∗等推理库高度优化。虽然BN[11]已经成为许多网络的标准配置，但由于其推理速度慢，我们没有采用它作为组件。我们比较了原始骨干网和BN骨干网的速度：原始骨干网的速度可以达到7.6毫秒，*BN骨干网只有8.9毫秒，因此速度慢了17%（分辨率：640×480，硬件：泰坦X（帕斯卡）。我们不再使用BN，而是训练更多的迭代以获得更好的收敛性。如图2所示，在每个部分中，剩余的连接被并排放置以便于训练深骨干。前两部分中所有卷积层的滤波器数目为64。我们不增加滤波器，因为前两部分具有相对较大的特征映射，这在计算上是昂贵的。然而，最后两部分中的滤波器数目可以增加到128个，而不需要太多额外的计算。更多详情见表2。

3.4. Training Details

在本小节中，我们将从几个方面描述与培训相关的细节。

数据集和数据扩充。该方法在宽人脸基准的训练集[33]上进行训练，包括12880幅有效人脸数超过150000的图像。小于10像素的面将直接丢弃。数据增强是提高系统鲁棒性的重要手段。具体策略如下：

•颜色失真，如随机光噪声、随机对比度、随机亮度等。更多信息请参考[8，15]。

•对每个比例进行随机抽样。在所提出的网络中，有8个损失分支，每个分支负责一定的连续规模。因此，我们必须保证：1）每个分支的面数大致相同；2）每个分支的面可以以相同的概率进行采样。为此，我们首先随机选择一个图像，然后随机选择图像中的一个人脸。第二，选择一个连续的面部比例，并在该比例内以及整个图像和其他面部框内随机调整面部大小。最后，在选定的人脸中心裁剪640×640的子图像，用黑色像素填充外部空间。

•随机水平翻转。我们以0.5的概率翻转裁剪后的图像。

scale 20-40, the corresponding gray scales are [18,20] and
[40,44]. Faces that fall in gray scales are also ignored by
the corresponding branch. For bbox regression, we adopt
L2 loss directly. The regression groundtruth is defined as:

难例挖掘。对于每个分支，负射频锚定通常多于正射频锚定。为了稳定和更好的训练，只有一个分数负RF锚用于反向传播：我们对所有负锚的损失值进行排序，只选择最重要的锚进行学习。正锚与负锚之比不超过1:10。从经验上看，硬负开采可以带来更快、更稳定的收敛。

训练参数。我们用xavier方法初始化所有参数，从头开始训练网络。输入先减127.5，然后除以127.5。优化方法为动量为0.9、质量衰减为零、批量为32的SGD。零权值衰减的原因是该网络的参数个数远小于VGG16。因此，没有必要惩罚。初始学习率为0.1。我们训练1500000次迭代，并通过在600000、1000000、1200000和1400000次迭代中乘以0.1来降低学习率。两台英伟达GTX1080TI，训练时间约5天。我们的方法是使用MXNet[2]实现的，源代码是发布的。

4. Experiments

在这一部分中，我们进行了全面而广泛的实验。首先，提出了一种新的评价方案，给出了基于基准的评价结果。其次，分析了多平台的运行效率。第三，我们进一步研究了计算量和存储内存开销，引入了计算效率率。

4.1. Evaluation on Benchmarks 基准评价

在本小节中，一个新的评估模式将在开头描述。新的模式称为原始模式上的单一推理（SIO）。SIO的提出是为了改革现实应用的评估程序。我们注意到

图3。FDDB的评估结果。为清楚起见，此处不显示许多其他已发布的方法

我们注意到在一些实际的场景中，延迟和准确度同样重要。传统的评估过程涉及一些复杂的方法，如翻转和图像金字塔，以获得更高的精度。然而，这样做的时间消耗是不可接受的。为此，SIO可以很容易地通过以下方式操作：1）保持图像的原始大小作为网络输入；2）网络只对原始图像进行一次推理。SIO的输出被输入到随后的度量中。

在实验中，我们必须根据SIO模式再现结果。因此，我们收集了平均数据和模型的比较方法。最后，采用以下方法进行比较：DSFD[16]（Resnet152主干）、pyramibox[28]（VGG16主干）、S3FD[38]（VGG16主干）、SSH[20]（VGG16主干）和facebox[37]。DSFD和pyramibox是最先进的方法。提出的方法名为LFFD。LFFD和Facebox不依赖现有的预训练后腰，而是从头开始训练。我们在两个基准上评估所有方法：FDDB[12]和WDIER FACE[33]。

FDDB数据集。FDDB包含2845个图像，5171个无约束面。有两种类型的评分：离散评分和连续评分。第一个评分标准是通过阈值IOU得到的。第二个标准直接使用IOU比率。我们在图3中显示了针对上述五种方法的FDDB上的LFFD的最终评估结果。两种评分类型的总体表现都显示出相似的趋势。DSFD、pyramibox、S3FD和SSH可以在具有边缘间隙的情况下实现高精度。与前四种方法相比，本文提出的LFFD方法的精度略低，但明显优于facebox方法。结果表明，LFFD算法在检测无约束人脸方面具有优越性。

WIDER FACE dataset.。在较宽的面上，有32203个图像和393703个标记面。这些人脸在比例、姿势和遮挡方面都有很大的变化。到目前为止，较宽的人脸是最广泛使用的人脸检测基准。所有图像随机分为三个子集：训练集（40%）、验证集（10%）和测试集（50%）。此外，根据检测的难易程度，将每个子集中的图像分为易、中、难三级。粗略地说，大量的小/小脸位于中硬部位。groundtruth注释仅可用于培训和验证集。所有比较的方法都是在训练集上训练的。我们分别在表3和表4中报告验证集和测试集的结果。

可以进行一些观察。首先，与原始结果相比，DSFD、pyramibox、S3FD和SSH的性能下降明显。一方面，仅通过一次推理就很难达到较高的精度。另一方面，这些技巧确实可以显著地提高准确性。其次，pyramibox在硬部件上取得了最好的效果，而SSH在硬部件上的性能却显著下降，主要是由于忽略了一些微小的面。第三，facebox不能在ediumandhardparts上获得理想的结果。SinceFaceBoxes会快速产生大的32步，这意味着很难检测到小于32像素的人脸。为了更清楚，我们对面板进行了额外的实验，称为面板3.2×，其中输入图像的两边都放大了3.2×。结果表明，在中硬零件上的试验结果有了显著的提高。简单零件的性能下降是由于某些面的大小调整过大而无法检测到。面盒和面盒的结果在一定程度上表明，面盒不能覆盖大范围的面。第四，所提出的方法LFFD始终优于facebox，尽管与现有方法有差距。此外，LFFD优于SSH，后者使用VGG16作为硬部件上的主干。

4.2. Running Efficiency 执行效率

在本小节中，我们分析了所有方法在三个不同平台上的运行速度。各平台及相关库信息见表5。我们使用batchsize 1和一些常见的分辨率进行测试。为了公平比较，此处使用FaceBoxes3.2×而不是FaceBoxes。运行速度以ms和相应的FPS为单位进行测量。最终结果见表6、7和8。在表6中，我们还添加了VGG16和Resnet50以进行充分的比较。SSH和S3FD基于VGG16，速度与VGG16相似。尽管基于VGG16，但由于额外的复杂模块，pyramibox的速度要慢得多。DSFD可以达到最先进的精度，但它的运行速度最慢。提出的LFFD在3840×2160下运行最快，FaceBoxes3.2×在其它三种分辨率下运行速度最高。同最开始的三种方法比LFFD和FaceBoxes3.2×都能达到甚至超过实时运行速度。上述以运行速度为代价的先进方法追求更高精度的趋势得到了明确的验证。

TX2和Raspberry-Pi 3是计算能力较低的边缘器件。DSFD、pyramibox、S3FD和SSH速度太慢或无法在这两个平台上运行。因此，我们仅在表7和表8中的较低分辨率下评估提议的LFFD和FaceBoxes3.2×。结果表明，除了覆盆子Pi 3上640×480的情况外，LFFD比FaceBoxes3.2×快。在低分辨率160×120和320×240下，LFFD能比FaceBoxes3.2×更好地利用ncnn的优化。

4.3. Parameter, Computation and Model Size

本小节从参数、计算和模型尺寸的角度对比较方法进行了研究。边缘设备总是有有限的存储存储器。有必要考虑面部探测器的内存使用情况。参数的数量与模型的大小密切相关。然而，参数越少并不意味着计算量越少。在[19]之后，我们使用触发器来测量分辨率为640×480的计算。所有信息见表9。

对于最新的方法DSFD和pyramibox，它们有大量的参数和触发器。所提出的LFFD和FaceBoxes3.2×具有适于部署在边缘设备上的光网络。为了进一步证明所建议网络的效率，我们定义了一个新的度量：

其中t表示运行时间。enet反映了网络的计算效率（越大，效率越高），可以在特定平台上以一定的分辨率进行计算。我们在三个平台（LFFD与FaceBoxes3.2×）上，以640×480计算LFFD和FaceBoxes3.2×的度量：

•1.22G/ms与TITAN Xp上的0.42G/ms相比；

•0.14G/ms与TX2上的0.04G/ms相比；

•0.0022G/ms与覆盆子PI3上的0.00088G/ms相比；

显然，所提出的网络具有更高效的计算，这说明了计算机网络设计的优越性

5. Conclusion

本文介绍了一种轻量快速的人脸检测方法，该方法能很好地平衡准确度和延时。通过对人脸检测背景下的RF进行深入反思，提出了一种无锚方法来克服基于锚方法的缺陷。该方法将RFs视为自然的“锚”，可以覆盖连续的人脸尺度，命中率接近100%。在研究了ERFs与面部尺度的本质关系之后，我们精心设计了一个简单而高效的八个检测分支网络。该网络由具有较少滤波器的公共构建块组成，推理速度快。为了充分分析该方法，进行了全面而广泛的实验。实验结果表明，该方法具有模型尺寸小、计算效率高等优点，是一种很好的边缘器件候选方法。

References
[1] S. C. Brubaker, J. Wu, J. Sun, M. D. Mullin, and J. M. Rehg.
On the design of cascades of boosted ensembles for face de-
tection. International Journal of Computer Vision, 77:65–86,
2008. 2
[2] T. Chen, M. Li, Y . Li, M. Lin, N. Wang, M. Wang, T. Xiao,
B. Xu, C. Zhang, and Z. Zhang. Mxnet: A flexible and effi-
cient machine learning library for heterogeneous distributed
systems. arXiv:1512.01274, 2015. 6
[3] C. Chi, S. Zhang, J. Xing, Z. Lei, S. Z. Li, and X. Zou. Selec-
tive refinement network for high performance face detection.
arXiv:1809.02693, 2018. 1, 2
[4] P . Dollr, R. Appel, S. Belongie, and P . Perona. Fast feature
pyramids for object detection. IEEE Transactions on Pattern
Analysis and Machine Intelligence, 36(8):1532–1545, 2014.
2
[5] R. Girshick. Fast r-cnn. In Proceedings of IEEE Interna-
tional Conference on Computer Vision, pages 1440–1448,
2015. 2
[6] R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich fea-
ture hierarchies for accurate object detection and semantic
segmentation. In Proceedings of IEEE Conference on Com-
puter Vision and Pattern Recognition, pages 580–587, 2014.
2
[7] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning
for image recognition. In Proceedings of IEEE Conference
on Computer Vision and Pattern Recognition, pages 770–
778, 2016. 1, 2
[8] A. G. Howard. Some improvements on deep convolutional
neural network based image classification. arXiv:1312.5402,
2013. 5
[9] P . Hu and D. Ramanan. Finding tiny faces. In Proceedings
of IEEE Conference on Computer Vision and Pattern Recog-
nition, pages 951–959, 2017. 2, 3
[10] G. Huang, Z. Liu, L. van der Maaten, and K. Q. Weinberger.
Densely connected convolutional networks. In Proceedings
of IEEE Conference on Computer Vision and Pattern Recog-
nition, pages 4700–4708, 2017. 1, 2
[11] S. Ioffe and C. Szegedy. Batch normalization: Accelerating
deep network training by reducing internal covariate shift.
arXiv:1502.03167, 2015. 5
[12] V . Jain and E. Learned-Miller. Fddb: A benchmark for face
detection in unconstrained settings. Technical report, Uni-
versity of Massachusetts, Amherst, 2010. 7
[13] H. Jiang and E. Learned-Miller. Face detection with the
faster r-cnn. In Proceedings of IEEE International Confer-
ence on Automatic Face & Gesture Recognition, pages 650–
657, 2017. 2
[14] X. Jin and X. Tan. Face alignment in-the-wild: A sur-
vey. Computer Vision and Image Understanding, 162:1–22,
2017. 1
[15] A. Krizhevsky, I. Sutskever, and G. E. Hinton. Imagenet
classification with deep convolutional neural networks. In
Proceedings of Advances in Neural Information Processing
Systems, pages 1097–1105, 2012. 5
[16] J. Li, Y . Wang, C. Wang, Y . Tai, J. Qian, J. Yang, C. Wang,
J. Li, and F. Huang. Dsfd: dual shot face detector. In Pro-
ceedings of IEEE Conference on Computer Vision and Pat-
tern Recognition, 2019. 1, 2, 3, 6
[17] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed, C.-Y .
Fu, and A. C. Berg. Ssd: Single shot multibox detector. In
Proceedings of European Conference on Computer Vision,
pages 21–37, 2016. 2
[18] W. Luo, Y . Li, R. Urtasun, and R. Zemel. Understanding
the effective receptive field in deep convolutional neural net-
works. In Proceedings of Advances in Neural Information
Processing Systems, pages 4898–4906, 2016. 3
[19] P . Molchanov, S. Tyree, T. Karras, T. Aila, and J. Kautz.
Pruning convolutional neural networks for resource efficient
inference. arXiv:1611.06440, 2016. 8
[20] M. Najibi, P . Samangouei, R. Chellappa, and L. S. Davis.
Ssh: Single stage headless face detector. In Proceedings of
IEEE International Conference on Computer Vision, pages
4875–4884, 2017. 2, 3, 6
[21] T. Ojala, M. Pietikinen, and T. Menp. Multiresolution gray-
scale and rotation invariant texture classification with local
binary patterns. IEEE Transactions on Pattern Analysis and
Machine Intelligence, 24:971–987, 2002. 2
[22] M.-T. Pham and T.-J. Cham. Fast training and selection of
haar features using statistics in boosting-based face detec-
tion. In Proceedings of IEEE International Conference on
Computer Vision, pages 1–7, 2007. 2
[23] J. Redmon, S. Divvala, R. Girshick, and A. Farhadi. Y ou
only look once: Unified, real-time object detection. In Pro-
ceedings of IEEE Conference on Computer Vision and Pat-
tern Recognition, pages 779–788, 2016. 2

[24] J. Redmon and A. Farhadi. Y olo9000: better, faster, stronger.
In Proceedings of IEEE Conference on Computer Vision and
Pattern Recognition, pages 7263–7271, 2017. 2
[25] J. Redmon and A. Farhadi. Y olov3: An incremental improve-
ment. arXiv:1804.02767, 2018. 2
[26] S. Ren, K. He, R. Girshick, and J. Sun. Faster r-cnn: Towards
real-time object detection with region proposal networks. In
Proceedings of Advances in Neural Information Processing
Systems, pages 91–99, 2015. 2
[27] K. Simonyan and A. Zisserman. V ery deep con-
volutional networks for large-scale image recognition.
arXiv:1409.1556, 2014. 1, 2
[28] X. Tang, D. K. Du, Z. He, and J. Liu. Pyramidbox: A
context-assisted single shot face detector. In Proceedings of
European Conference on Computer Vision, pages 797–813,
2018. 1, 2, 3, 6
[29] P . Viola and M. J. Jones. Robust real-time face detection.
International Journal of Computer Vision, 57(2):137–154,
2004. 2
[30] H. Wang, Z. Li, X. Ji, and Y . Wang. Face r-cnn.
arXiv:1706.01061, 2017. 2
[31] M. Wang and W. Deng. Deep face recognition: A survey.
arXiv:1804.06655, 2018. 1
[32] B. Yang, J. Yan, Z. Lei, and S. Z. Li. Aggregate channel
features for multi-view face detection. In Proceedings of
IEEE International Joint Conference on Biometrics, pages
1–8, 2014. 2
[33] S. Yang, P . Luo, C. C. Loy, and X. Tang. Wider face: A face
detection benchmark. In Proceedings of IEEE Conference
on Computer Vision and Pattern Recognition, pages 5525–
5533, 2016. 1, 5, 7
[34] K. Zhang, Z. Zhang, Z. Li, and Y . Qiao. Joint face detection
and alignment using multitask cascaded convolutional net-
works. IEEE Signal Processing Letters, 23(10):1499–1503,
2016. 2
[35] K. Zhang, Z. Zhang, H. Wang, Z. Li, Y . Qiao, and W. Liu.
Detecting faces using inside cascaded contextual cnn. InPro-
ceedings of IEEE International Conference on Computer Vi-
sion, pages 3171–3179, 2017. 2
[36] S. Zhang, R. Zhu, X. Wang, H. Shi, T. Fu, S. Wang, T. Mei,
and S. Z. Li. Improved selective refinement network for face
detection. arXiv:1901.06651, 2019. 1, 2
[37] S. Zhang, X. Zhu, Z. Lei, H. Shi, X. Wang, and S. Z. Li.
Faceboxes: A cpu real-time face detector with high accuracy.
In Proceedings of IEEE International Joint Conference on
Biometrics, pages 1–9, 2017. 2, 3, 4, 6
[38] S. Zhang, X. Zhu, Z. Lei, H. Shi, X. Wang, and S. Z. Li.
S3fd: Single shot scale-invariant face detector. In Proceed-
ings of IEEE International Conference on Computer Vision,
pages 192–201, 2017. 2, 3, 4, 6
[39] Y . Zhang, X. Xu, and X. Liu. Robust and high performance
face detector. arXiv:1901.02350, 2019. 1, 2
[40] C. Zhu, R. Tao, K. Luu, and M. Savvides. Seeing small
faces from robust anchor’s perspective. In Proceedings of
IEEE Conference on Computer Vision and Pattern Recogni-
tion, pages 5127–5136, 2018. 2, 3

[41] Q. Zhu, M.-C. Yeh, K.-T. Cheng, and S. Avidan. Fast human
detection using a cascade of histograms of oriented gradi-
ents. In Proceedings of IEEE Conference on Computer Vi-
sion and Pattern Recognition, pages 1491–1498, 2006. 2