Joint Face Detection and Alignment Using Multi-task Cascade Convolutional Networks笔记

最新推荐文章于 2022-08-07 14:06:40 发布

softee

最新推荐文章于 2022-08-07 14:06:40 发布

阅读量1.3k

点赞数

分类专栏：心得文章标签：人工智能 deep-CNN 人脸识别人脸对齐深度学习

本文链接：https://blog.csdn.net/softee/article/details/71439089

版权

心得专栏收录该内容

28 篇文章 1 订阅

订阅专栏

人脸识别是当今人工智能中的一个研究热点。不同的姿势、光线以及遮挡物等，都会给人脸识别增加困难。这篇文章提出了一个基于深度CNN的，串联、多任务的框架，串联的方法利用了人脸检测（face detection）和人脸对齐（face alignment）之间的内在关系，以提高识别率。在保持算法实时反应的基础上，对FDDB和WIDER FACE等基准测试集的识别率都超越了当前的最新水平。

方法步骤

这篇文章中提出的方法主要可以分为以下三个阶段。

使用一个较为浅度的CNN来从输入图片中生成候选的人脸窗口。
使用一个更为复杂的CNN来拒绝一些非人脸的窗口，并对人脸窗口进行校正。
最后，使用更为复杂的CNN来精化之前的结果，进行人脸的对齐操作，并生成5个特征点。

详细的工作步骤如下。

对于每一张输入图片，把它进行不同幅度的缩放，组成一个图像的金字塔，作为串联方法中各个步骤的输入。
使用PNet(Proposal Net)，是一个完全的卷积神经网络，来生成候选的人脸窗口。然后使用回归向量，对生成的候选窗口进行校正。
所有候选窗口进入第二阶段，使用RCNN(Refine CNN)，来拒绝一些假的候选，并对bounding box进行校正。
对人脸进行更细致的处理，生成5个特征点。

文中使用的CNN的结构如下图（引自原文）。
这里写图片描述

训练过程

训练过程可以分为以下步骤。

对人脸的分类(face classification)。学习目标是进行二元分类，对每个样本 $x_i$ ，其损失函数是一个交叉熵（cross entropy）函数。 $L d e t i = - (y d e t i l o g (P i) + (1 - y d e t i) (1 - l o g (P i)))$ $L_i^{det}=-(y_i^{det}log(P_i)+(1-y_i^{det})(1-log(P_i)))$ 其中 $P_i$ 是 $x_i$ 为人脸的概率。 $y_i^{det}\in\{0, 1\}$ 是 $x_i$ 是否为人脸的真实取值。
bounding box回归。比较CNN给出的窗口与真实窗口之间的差别。学习目标是一个回归问题，损失函数为： $L b o x i = | | y^b o x i - y b o x i | | 22$ $L_i^{box}=||\hat y_i^{box} - y_i^{box}||_2^{2}$ 其中， $\hat y_i^{box}$ 是CNN网络给出的，需要回归的对象， $y_i^{box}\in R^4$ 是真实的窗口。（左上、右下两个点的坐标，需要4个数值）
特征值的定位。与bounding box相似，生成的人脸特征点也需要进行回归。一共有5个特征点（双眼、鼻尖以及两嘴角）。人脸的对齐所对应的损失函数为： $L l a n d m a r k i = ∥ y^l a n d m a r k i - y l a n d m a r k i ∥ 22$ $L_i^{landmark}=\parallel \hat y_i^{landmark}-y_i^{landmark}\parallel_2^2$ 其中 $\hat y_i^{landmark}\in R^{10}$ 是网络模型所计算出来的5个特征点的坐标（10个数值组成的向量）。 $y_i^{landmark}$ 是人脸特征点的真实坐标。
多源训练。如前所述，这篇文章中提到的CNN框架，需要完成多项任务。针对这多项任务的串联训练，不同的损失函数{det, box, landmark}的作用和权重也各不相同。整个过程的学习目标如下。 $m i n Σ N i = 1 Σ j \in {d e t, b o x, l a n d m a r k} α j β j i L j i$ $min\Sigma_{i=1}^N\Sigma_{j\in\{det, box, landmark\}}\alpha_j\beta_i^jL_i^j$ 其中 $\alpha_j$ 代表了任务的重要性。在PNet和RNet中， $(\alpha_{det}=1, \alpha_{box}=0.5, \alpha_{landmark}=0.5)$ 。而在ONet中， $(\alpha_{det}=1, \alpha_{box}=0.5, \alpha_{landmark}=1)$ 。 $\beta_i^j\in\{0, 1\}$ 是样本类型指示符。
硬样本的挖掘。传统硬样本的挖掘，是在分类器的训练完成之后。这篇文章在人脸的分类（人脸/非人脸）的过程中，采用了在线的自适应挖掘方法。在每个mini-batch的训练过程中，把前向传播过程中处理的样本，按照损失函数结果进行排序，用其中最好的70%作为硬样本。只用这些样本来后向传播、梯度计算。

softee

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Joint Face Detection and Alignment Using Multi-task Cascade Convolutional Networks笔记

人脸识别是当今人工智能中的一个研究热点。不同的姿势、光线以及遮挡物等，都会给人脸识别增加困难。这篇文章提出了一个基于深度CNN的，串联、多任务的框架，串联的方法利用了人脸检测（face detection）和人脸对齐（face alignment）之间的内在关系，以提高识别率。在保持算法实时反应的基础上，对FDDB和WIDER FACE等基准测试集的识别率都达到了超越当前最新水平的准确率。相关工作
复制链接

扫一扫