人脸检测：MTCNN

最新推荐文章于 2025-04-22 11:34:17 发布

tinyzhao

最新推荐文章于 2025-04-22 11:34:17 发布

阅读量5.2w

点赞数 13

分类专栏： Computer Vision Face Analysis 人脸识别文章标签：人脸识别人脸检测特征点定位

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tinyzhao/article/details/53236191

版权

本文详细解读了《Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks》论文，介绍了MTCNN框架，包括P-Net、N-Net和O-Net三个阶段的级联检测与特征点定位，以及在线硬样本挖掘和bounding box regression等关键算法。实验证明，该方法在保持高精度的同时，具备快速检测速度，适合于移动设备应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

《Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks》论文解读。

本文来自于中国科学院深圳先进技术研究院，目前发表在arXiv上，是2016年4月份的文章，算是比较新的文章。
论文地址：

https://kpzhang93.github.io/MTCNN_face_detection_alignment/

概述

相比于R-CNN系列通用检测方法，本文更加针对人脸检测这一专门的任务，速度和精度都有足够的提升。R-CNN，Fast R-CNN，FasterR-CNN这一系列的方法不是一篇博客能讲清楚的，有兴趣可以找相关论文阅读。类似于TCDCN，本文提出了一种Multi-task的人脸检测框架，将人脸检测和人脸特征点检测同时进行。论文使用3个CNN级联的方式，和Viola-Jones类似，实现了coarse-to-fine的算法结构。

框架

算法流程

pipeline

当给定一张照片的时候，将其缩放到不同尺度形成图像金字塔，以达到尺度不变。

Stage 1：使用P-Net是一个全卷积网络，用来生成候选窗和边框回归向量(bounding box regression vectors)。使用Bounding box regression的方法来校正这些候选窗，使用非极大值抑制（NMS）合并重叠的候选框。全卷积网络和Faster R-CNN中的RPN一脉相承。

Stage 2：使用N-Net改善候选窗。将通过P-Net的候选窗输入R-Net中，拒绝掉大部分false的窗口，继续使用Bounding box regression和NMS合并。

Stage 3：最后使用O-Net输出最终的人脸框和特征点位置。和第二步类似，但是不同的是生成5个特征点位置。

CNN结构

本文使用三个CNN，结构如图：

CNN

训练

这个算法需要实现三个任务的学习：人脸非人脸的分类，bounding box regression和人脸特征点定位。

(1)人脸检测

这就是一个分类任务，使用交叉熵损失函数即可：

L d e t i = - (y d e t i l o g (p i) + (1 - y d e t i) (1 - l o g (p i)))

$L_i^{det}=-(y_i^{det}log(p_i)+(1-y_i^{det})(1-log(p_i)))$

(2)Bounding box regression

这是一个回归问题，使用平方和损失函数：

最低0.47元/天解锁文章

评论 12

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。