MTCNN

MTCNN,Multi-task convolutional neural network(多任务卷积神经网络),将人脸区域检测与人脸关键点检测放在了一起,它的主题框架类似于cascade。总体可分为P-Net、R-Net、和O-Net三层网络结构。

网络结构

在这里插入图片描述
级联网络,分三部分,网络由简单到复杂,逐步细化检测框。三个任务,分类,边框回归和关键点坐标。

P-Net

是一个全卷积网络,只不过最后一步进行了三次1*1的卷积,分别产边框,类别和关键点坐标。
(1)假设输入图片为(1,W,H,C),经过网络卷积-池化-卷积-卷积,得到feature map尺寸为(1, (W-2)/2-4, (H-2)/2-4, 32),对他进行三次1*1卷积, 得到类别输出(1, (W-2)/2-4, (H-2)/2-4, 2),边框输出(1, (W-2)/2-4, (H-2)/2-4, 4)和关键点输出(1, (W-2)/2-4, (H-2)/2-4, 10)。
(2)这样的卷积运算,相当于对一个12*12*3的图像块,产生了一个预测边框以及它所对应的类别和关键点坐标,所以示意图以12*12*3的图像块作为代表。
(3)将同一张图片resize为不同尺寸输入网络,对于小图而言,12*12能检测出大脸,对于大图而言,12*12能检测出小脸,这样,小脸和大脸都能够检测到。
这样属于多尺度输入,相对麻烦,SSH利用不同深度的feature map检测多尺度的人脸,更简单一些。
(4)最终,每个尺度的输入都会产生((W-2)/2-4)*((H-2)/2-4)个预测边框。
接着设置阈值,利用分类概率过滤边框。

R-Net

假设P-Net产生N个候选框,将N个框resize为24*24*3大小,得到输入(N, 24, 24, 3), 利用网络,再次回归出新的边框,这个网络的输入尺寸更大,网络的宽度也更宽,而且在最后加上全连接层,所以产生的边框更加精细,更加准确。

O-Net

作用与R-Net一样,更加精细而已。
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值