MTCNN原理详解

最新推荐文章于 2023-02-22 18:03:08 发布

圆加成

最新推荐文章于 2023-02-22 18:03:08 发布

阅读量2k

点赞数 2

本文链接：https://blog.csdn.net/qq_43620540/article/details/105035588

版权

MTCNN是一个多阶段的人脸检测网络，包括P-Net、R-Net和O-Net。P-Net使用全卷积网络处理不同大小的图片，构建图像金字塔获取人脸候选框。R-Net和O-Net进一步进行分类和回归，输出精确的边界框和关键点坐标。训练过程中，先训练P-Net，然后依次训练R-Net和O-Net。损失函数包括分类的交叉熵损失和回归的平方差损失。非极大值抑制（NMS）用于去除重叠的候选框。

摘要由CSDN通过智能技术生成

1. P-Net

P-NET是一个全卷积网络（Fully Convolutional Networks），不涉及到全连接层，因此可以处理不同大小的图片，卷积、池化、非线性激活都是一些可以接受任意尺度矩阵的运算，//但全连接运算是需要规定输入。如果网络中有全连接层，则输入的图片尺度(一般)需固定；如果没有全连接层，图片尺度可以是任意的。

P-Net感受野为固定值12x12，用于判断12×12大小范围内是否含有人脸，但是输入图像中人脸的尺寸未知，需要构建图像金字塔获得不同尺寸的图像，这些图像都是要一幅幅输入到P-Net中去得到候选的。

【感受野】卷积神经网络每一层输出的特征图上的像素点在输入图片上映射的区域大小。即特征图上的一个点对应输入图上的区域。
如图，红色部分到橙色部分感受野对应大小为3x3

【图像金字塔】
MTCNN使用了图中(a)部分图像金字塔来解决目标多尺度问题，即把原图按照一定的比例(如0.5)，多次等比缩放得到多尺度的图片，图片进行resize，直到大等于Pnet要求的12x12大小。（注，最后一个的图片大小会大等于12）这些不同大小的图片，堆叠起来的话像是金字塔，简单称为图片金字塔。