论文笔记：MTCNN

最新推荐文章于 2021-12-15 21:29:49 发布

hongbin_xu

最新推荐文章于 2021-12-15 21:29:49 发布

阅读量1.3k

点赞数 2

分类专栏：论文阅读深度学习论文笔记文章标签： MTCNN

本文链接：https://blog.csdn.net/hongbin_xu/article/details/85299972

版权

33 篇文章 29 订阅

订阅专栏

33 篇文章 3 订阅

订阅专栏

33 篇文章 13 订阅

订阅专栏

Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks

MTCNN

要解决什么问题？
- 人脸检测（face detection）和人脸对齐（face alignment）。
用了什么方法解决？
- 提出了一个深度级联网络结构，分成了三个阶段，从粗到精对人脸进行检测、定位人脸特征点、对齐。
- 此外，还提出了一个在线的难分样本挖掘策略（online hard sample mining strategy），可以提升训练精度。
效果如何？
- 模型的实时性很好。
- 在FDDB和WIDER FACE两个数据集中的人脸检测以及AFLW数据集中的人脸对齐任务任务达到 state-of-the-art。
还存在什么问题？
- 训练时间较长，收敛较慢。

在这里插入图片描述

MTCNN的三层结构如上图。
- 阶段一：先使用全卷积网络，即P-Net，来获取到获选的人脸框和其对应的向量。随后根据回归框向量对候选框进行校正。之后使用非极大抑制（NMS）来去除高度重合的候选框。
- 阶段二：P-Net得到的回归框都送入R-Net中，随后拒绝大量错误框，再对回归框做校正，并使用NMS去除重合框。
- 阶段三：与阶段二类似，但是这里会额外进行人脸特征点（5个）的检测。

在这里插入图片描述

在这里插入图片描述

Refine Network（R-Net）：
- 以P-Net预测得到的回归框信息作为输入，先对原始图片进行切片，随后resize到固定尺寸。
- 输入为： $24 \times 24 \times 3$ ，与P-Net的输出一样。

在这里插入图片描述

Output Network（O-Net）：
- 以R-Net预测得到的回归框信息作为输入，对原始图片切片，随后resize到固定尺寸。
- 输入为： $48 \times 48 \times 3$ ，与R-Net的输出一样。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

Online Hard sample mining：在每个mini-batch中计算所有sample的loss，并按照降序排序，取前70%的sample用来训练。

使用四种不同数据注释：
- positives：与ground truth的IOU高于阈值。
- negatives：与ground truth的IOU低于阈值。
- part faces：与ground truth的IOU处于前面两个阈值之间。
- landmark faces：有landmark标签。