RetinaFace: Single-stage Dense Face Localisation in the Wild

Diros1g

已于 2022-07-17 17:11:13 修改

阅读量319

点赞数

分类专栏：论文学习文章标签：深度学习计算机视觉机器学习

于 2022-07-13 13:07:49 首次发布

本文链接：https://blog.csdn.net/qq_41950533/article/details/125723860

版权

论文学习专栏收录该内容

35 篇文章 4 订阅

订阅专栏

1.网络结构：

在这里插入图片描述
简单的来说就是backbone+FPN+SSH

Backbone

RetinaFace使用的是MobileNetV1-0.25 or Resnet50
Resnet50经过测试检测速度激活时mobile的2倍，所以我们在实验的过程中使用的时MobileNetV1-0.25，MobileNetV1-0.25就是在MobileNetV1的基础对每一层卷积核的通道数缩减到原来的四分之一。最后我们取骨干网络最后三层的特征C3、C4、C5作为FPN的输入，这三层feature map的大小并不是固定的，因为MobileNetV1的可以接受不同尺寸大小的图片，所以其输出不是固定的。

FPN

在这里插入图片描述
FPN在很多目标检测的网络中都有出现，最著名的就是YOLO系列。FPN是一种多吃多特征融合的方法，底层特征经过上采样之后和上层特征进行融合，就得到高分辨率、强语义的特征。特征C3、C4、C5经过FPN之后获得特征P3、P4、P5。

SSH（Single Stage Headless Face Detector）

在这里插入图片描述
作者用两个3*3卷积模拟5*5卷积，三个3*3卷积模拟7*7卷积，来扩大感受野，引入更多的上下文信息（人脸周边像素），同时SSH就有了三种不同感受野的卷积。P3、P4、P5在经过SSH之后变成了S3、S4、S5这三层既有丰富的语义特征，有用上下文信息，还能兼顾不同尺度的人脸。

2.检测头

最后一步就是将获得的S3、S4、S5传给检测头，作者把分类预测（由于人脸检测是一个二分类任务，分类预测的数值即人脸的置信度得分）、bbox微调（对先验框进行调整从而获得预测框，需要四个参数，前两个用于对先验框的中心进行调整，后两个用于对先验框的宽高进行调整）和人脸关键点预测（一共有五个人脸关键点，故共十个横纵坐标参数）这三部分拆开逐个进行推理。
最后在经过一次非极大值抑制就得到了最终的检测结果。