MTCNN

最新推荐文章于 2021-08-17 16:54:38 发布

lpppcccc

最新推荐文章于 2021-08-17 16:54:38 发布

阅读量254

点赞数

分类专栏：目标检测

本文链接：https://blog.csdn.net/qq_41332469/article/details/102943071

版权

目标检测专栏收录该内容

12 篇文章 1 订阅

订阅专栏

MTCNN，Multi-task convolutional neural network（多任务卷积神经网络），将人脸区域检测与人脸关键点检测放在了一起，它的主题框架类似于cascade。总体可分为P-Net、R-Net、和O-Net三层网络结构。

网络结构

在这里插入图片描述
级联网络，分三部分，网络由简单到复杂，逐步细化检测框。三个任务，分类，边框回归和关键点坐标。

P-Net

是一个全卷积网络，只不过最后一步进行了三次1*1的卷积，分别产边框，类别和关键点坐标。
（1）假设输入图片为（1，W，H，C），经过网络卷积-池化-卷积-卷积，得到feature map尺寸为(1, (W-2)/2-4, (H-2)/2-4, 32)，对他进行三次1*1卷积, 得到类别输出(1, (W-2)/2-4, (H-2)/2-4, 2)，边框输出(1, (W-2)/2-4, (H-2)/2-4, 4)和关键点输出(1, (W-2)/2-4, (H-2)/2-4, 10)。
（2）这样的卷积运算，相当于对一个12*12*3的图像块，产生了一个预测边框以及它所对应的类别和关键点坐标，所以示意图以12*12*3的图像块作为代表。
（3）将同一张图片resize为不同尺寸输入网络，对于小图而言，12*12能检测出大脸，对于大图而言，12*12能检测出小脸，这样，小脸和大脸都能够检测到。
这样属于多尺度输入，相对麻烦，SSH利用不同深度的feature map检测多尺度的人脸，更简单一些。
（4）最终，每个尺度的输入都会产生((W-2)/2-4)*((H-2)/2-4)个预测边框。
接着设置阈值，利用分类概率过滤边框。

R-Net

假设P-Net产生N个候选框，将N个框resize为24*24*3大小，得到输入(N, 24, 24, 3), 利用网络，再次回归出新的边框，这个网络的输入尺寸更大，网络的宽度也更宽，而且在最后加上全连接层，所以产生的边框更加精细，更加准确。

O-Net

作用与R-Net一样，更加精细而已。
在这里插入图片描述

lpppcccc

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MTCNN

MTCNN，Multi-task convolutional neural network（多任务卷积神经网络），将人脸区域检测与人脸关键点检测放在了一起，它的主题框架类似于cascade。总体可分为P-Net、R-Net、和O-Net三层网络结构。网络结构级联网络，分三部分，网络由简单到复杂，逐步细化检测框。三个任务，分类，边框回归和关键点坐标。P-Net是一个全卷积网络，只不过最后一步...
复制链接

扫一扫