MTCNN笔记

最新推荐文章于 2025-03-14 20:10:56 发布

行者无疆兮

最新推荐文章于 2025-03-14 20:10:56 发布

阅读量2.6w

点赞数 4

分类专栏：深度学习文章标签：人脸识别 cnn 框架

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_30159015/article/details/79699855

版权

MTCNN是一种Multi-task的人脸检测框架，通过级联的P-Net、N-Net和O-Net实现人脸检测和特征点定位。算法包括图像金字塔、非极大值抑制（NMS）等步骤，训练时结合人脸分类、bounding box regression和特征点定位的损失函数。实验证明其在人脸检测和定位上有优秀表现，并且速度快，适合移动设备应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文题目《Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks》

MTCNN提出了一种Multi-task的人脸检测框架，将人脸检测和人脸特征点检测同时进行。论文使用3个CNN级联的方式。

框架

算法流程

当给定一张照片的时候，将其缩放到不同尺度形成图像金字塔，以达到尺度不变。

Stage 1：使用P-Net是一个全卷积网络，用来生成候选窗和边框回归向量(bounding box regression vectors)。使用Bounding box regression的方法来校正这些候选窗，使用非极大值抑制（NMS）合并重叠的候选框。全卷积网络和Faster R-CNN中的RPN一脉相承。

Stage 2：使用N-Net改善候选窗。将通过P-Net的候选窗输入R-Net中，拒绝掉大部分false的窗口，继续使用Bounding box regression和NMS合并。

Stage 3：最后使用O-Net输出最终的人脸框和特征点位置。和第二步类似，但是不同的是生成5个特征点位置。

CNN结构

本文使用三个CNN，结构如图：

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

行者无疆兮 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。