2019最新论文阅读-BlazeFace:面向移动设备的实时人脸检测-CSDN博客

本文链接：https://blog.csdn.net/kevin_zhao_zl/article/details/95895800

论文地址： BlazeFace: Sub-millisecond Neural Face Detection on Mobile GPUs

1. 简介

本文提出了一种高效的轻量级人脸检测框架BlazeFace应用于移动端实时人脸检测，在旗舰设备上FPS达到了200~1000，这种亚毫秒级别的检测方法能够应用在诸多需要快速准确的识别出人脸区域的任务中，例如2D/3D面部关键点识别与几何评估，面部特征和表情分类以及面部区域分割等。论文的主要贡献有两方面，一是推断速度：

紧凑轻量的卷积神经网络用作特征提取器
GPU友好型的anchor机制(对GPU的高效利用)

二是预测质量：

一种能够替换非极大值抑制策略的有效方法

2. 模型的架构和设计

BlazeFace的设计主要有下面四个衡量的因素

增加感受野

尽管包括MobileNet在内的诸多网络都编好 $\times 3$ 卷积，但是观察到深度可分离卷积的计算量主要集中在点卷积部分，也就是说通过采用核尺寸更大的卷积操作扩大感受野，计算成本相对较低。

在 $\times s \times c$ 的输入张量上，应用可分离卷积操作，其中， $\times k$ 的depthwise卷积包括 $s^2ck^2$ 次乘加运算，后续的 $\times 1$ 的pointwise卷积用进行 $s^2cd$ 次乘加运算(d是通道数)，是depthwise阶段的 $\frac{d}{k^2}$ 倍。

实践中，在iPhone X上，一个16位浮点运算的 $3\times3$ 深度卷积处理 $56\times56\times128$ 的张量，需要花费0.07ms，后续的点卷积操作需要0.3ms(不是理论值，是因为内存读取等因素的影响)。

基于这个观察论文采用 $5\times5$ 的卷积，这样使得感受野达到指定大小所需的bottleneck数量大大减少，得到的BlazeBlock有下图所示的两种结构：

在这里插入图片描述

特征提取器

特征提取器结构如下图所示：
在这里插入图片描述

Anchor机制

基于Anchor的目标见测器需要固定的先验框或者是提议机制，为此，有一系列的参数需要预测，用于调整先验框的位置。

捕获不同尺度的目标的常用方式是设定不同分辨率的anchors的方式，典型的SSD模型会使用 $1\times1,2\times2,4\times4和8\times8$ 的特征图。然而金字塔池化网络PPN架构的成功表明。在特征图到达某一个分辨率的时候，会有大量的冗余计算。

并且相对于CPU，GPU一个明显的特点就是进行每一层运算的时候会有一个显著的固定成本，对于特征图分辨率较小的层来说这个成本相对较大。

基于此，论文特征提取器只下采样至 $8\times8$ 的特征图尺寸，采用包含 $8\times8$ 特征图上每个像素6个Anchor方式替换包含2个Anchor的 $2\times2,4\times4和8\times8$ 的特征图。基于人脸的特征，使用1:1的Anchor，如下图所示：
在这里插入图片描述