MTCNN原理详解

MTCNN是一个多阶段的人脸检测网络,包括P-Net、R-Net和O-Net。P-Net使用全卷积网络处理不同大小的图片,构建图像金字塔获取人脸候选框。R-Net和O-Net进一步进行分类和回归,输出精确的边界框和关键点坐标。训练过程中,先训练P-Net,然后依次训练R-Net和O-Net。损失函数包括分类的交叉熵损失和回归的平方差损失。非极大值抑制(NMS)用于去除重叠的候选框。
摘要由CSDN通过智能技术生成

1. P-Net

P-NET是一个全卷积网络(Fully Convolutional Networks),不涉及到全连接层,因此可以处理不同大小的图片,卷积、池化、非线性激活都是一些可以接受任意尺度矩阵的运算,//但全连接运算是需要规定输入。如果网络中有全连接层,则输入的图片尺度(一般)需固定;如果没有全连接层,图片尺度可以是任意的。

P-Net感受野为固定值12x12,用于判断12×12大小范围内是否含有人脸,但是输入图像中人脸的尺寸未知,需要构建图像金字塔获得不同尺寸的图像,这些图像都是要一幅幅输入到P-Net中去得到候选的。

【感受野】卷积神经网络每一层输出的特征图上的像素点在输入图片上映射的区域大小。即特征图上的一个点对应输入图上的区域。
如图,红色部分到橙色部分感受野对应大小为3x3

感受野
【图像金字塔】
MTCNN使用了图中(a)部分图像金字塔来解决目标多尺度问题,即把原图按照一定的比例(如0.5),多次等比缩放得到多尺度的图片,图片进行resize,直到大等于Pnet要求的12x12大小。(注,最后一个的图片大小会大等于12)这些不同大小的图片,堆叠起来的话像是金字塔,简单称为图片金字塔。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值