【论文阅读】Hierarchical Attention for Part-Aware Face Detection

最新推荐文章于 2024-04-27 09:39:45 发布

huitailangyz

最新推荐文章于 2024-04-27 09:39:45 发布

阅读量639

点赞数

分类专栏：人脸检测论文阅读

本文链接：https://blog.csdn.net/huitailangyz/article/details/105959831

版权

论文阅读同时被 2 个专栏收录

18 篇文章 2 订阅

订阅专栏

人脸检测

1 篇文章 0 订阅

订阅专栏

【2019IJCV】
Wu, Shuzhe, Meina Kan, Shiguang Shan, and Xilin Chen. “Hierarchical Attention for Part-Aware Face Detection.” International Journal of Computer Vision 127, no. 6-7 (2019): 560-578.

任务：人脸检测
问题：现在对整个特征图使用同样的卷积核或pooling层，会导致对于不同的候选区域同等对待，而且对于同一候选区域中的不同部分也同等对待

概述

本文研究的任务的人脸检测，其认为以前的方法对整张输入图像的不同位置及每个候选区域的不同部位使用同样的卷积核方法，没有对每个位置进行有针对性地考虑，因此提出了层级注意力方法。
模型首先使用Faster RCNN提出候选区域，对于每个候选区域分为mxn个局部区域，先使用基于高斯核的part-specific注意力机制来得到每个局部的特征，再使用基于LSTM的face-specific注意力机制来得到每个局部特征的关注权重，最终再使用局部特征来进行分类和定位。
损失函数使用分类的交叉熵损失和定位和平滑L1损失。

模型结构

在这里插入图片描述
先使用Faster RCNN的RPN获得候选区域，再对每个候选区域使用层级注意力机制来进行进一步判断和定位。
层级注意力机制由Part-specific和face-specific两部分组成，前者决定局部特征长什么样，后者觉得每个局部特征的重要性，层级注意力机制的输出再经过FC最终获得每个候选区域的判断（是否为人脸）及定位。
1、Part-Specific Attention
在这里插入图片描述
R∈R^{wxh 为RPN提出的候选区域（VGG-16），划分成mxn个局部区域
K(θ_{ij} )为mxn个区域中每个的高斯核

高斯核初始值定位在每个局部区域的中央，参数更新由一个FC层决定
最终不同局部区域的表示如下

2、Face-Specific Attention
在这里插入图片描述

将z特征按照不同位置的顺序放入LSTM，并将LSTM最后输出的c和h拼接，作为全局上下文向量，再经过一个FC，得到该对应局部区域的权重(s)，与原来的局部特征进行点乘得到最终特征(u)

再对u使用子网络W（全连接或者卷积层）对每个候选区域进行最后的判断（是否为人脸）和定位

损失函数

在这里插入图片描述
c为类别标签（是否为人脸），l为定位标签
分类的softmax交叉熵损失，定位的平滑L1损失

数据集

1、FDDB：2845张图像，5171个标记的人脸（用来测试）
2、WIDER FACE：32203张图像，393703个标记的人脸，分为简单、中等和难三个子集
训练、验证、测试分别有12880/3226/16097张图像
其中训练集用来训练，验证集和测试集用来测试
3、UFDD：6425张图像，10897个标记的人脸（用来测试）

评价指标

FDDB中使用TruePositive率和FalsePositive数量
WIDER FACE使用Precision-Recall曲线和平均准确率(Average Precision)进行评价
UFDD使用平均准确率AP

实验

1、baseline
采用使用VGG-16为backbone的Faster RCNN作为基准模型

在这里插入图片描述
2、层级注意力模型的有效性
对比(1)part-specific注意力中只使用位置参数（μ）
（2）part-specific注意力中使用位置(μ)、强度(σ)和方向(ρ)参数
(3)同时使用part-specific注意力和face-specific注意力

3、高斯强度参数（σ）的初始化
在这里插入图片描述
part-specific注意力对于初始化鲁棒

4、注意力图的预测
将本文的基于LSTM的方法于其他的简单方法进行对比
在这里插入图片描述
5、与可变形CNN方法进行对比

6、注意力图的可视化

7、错误分析
对漏识别的人脸（missed faces）和误识别的人脸（false alarms）进行定位错误（IoU在0.1到0.5之间）和分类错误（missed faces中由于没有IoU大于0.1和false alarms中的IoU小于0.1）的分析
在这里插入图片描述
8、带有人脸landmark监督的比较
使用Menpo和Helen数据集中8935张图像作为训练集，2330作为测试集，有68点的landmark

使用landmark监督可能会有利于真假人脸的分类，但是可能会导致定位信息的损失