MTCNN论文初读


前言

在复杂且不受约束的环境中,人脸检测和人脸对齐是两项极具挑战性的任务。由于人脸的姿态、光照条件以及可能的遮挡等多种因素。本文提出了一种深度级联多任务框架,该框架充分利用了人脸检测和人脸对齐之间的内在关联性,旨在进一步提升两者的性能。作者设计了一个具有三个阶段的级联结构,每个阶段都包含精心设计的深度卷积网络,用于以由粗到细的方式预测人脸和特征点的位置。


一、MTCNN背景

MTCNN算法设计了一种级联的卷积神经网络结构,通过多个阶段的网络预测,以由粗到细的方式逐步精确定位人脸和特征点的位置。这种结构充分利用了人脸检测和人脸对齐之间的内在关联性,从而实现了性能的提升。

此外,MTCNN还引入了一些创新的学习策略,如在线困难样本挖掘策略,这些策略有助于自动提升性能,无需手动选择样本。这使得MTCNN在应对复杂多变的人脸图像时具有更好的适应性。

综上所述,MTCNN的背景是基于人脸检测和人脸对齐的挑战性问题,通过设计级联的卷积神经网络结构和引入创新的学习策略,实现了性能的提升和更好的适应性。这使得MTCNN在人脸相关的计算机视觉任务中具有重要的应用价值。

二、MTCNN的网络结构

在这里插入图片描述mtcnn分为三层结构p_net,R_net,O_net。
这三层逐层细分最后的的与之相最为匹配的图像

图像金字塔

每次我们取12*12的像素图像,然而有的人脸是小的或者大的。所以我们需要把图像进行缩放进行检测运算。

p_net

1,首先对图片进行Resize操作,将原始图像缩放成不同的尺度,生成图像金字塔。
然后P_net层削减去一部分不需要的背景P_net如下图的结构
在这里插入图片描述然后对原图和生成出来的p_net再进行操作如下图
在这里插入图片描述

结果分为一个二分类的二维数据,和一个4*32的调整数组调整之前·的图像最后加一个NM
S进行极大抑制削减边线框

R_net

在这里插入图片描述
进行更进一步精细操作,减少图片框的范围

o_net

在这里插入图片描述
这里比p_net多出了一个检验人面孔的分类器需要注意


  • 4
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值