【论文阅读】Hierarchical Attention for Part-Aware Face Detection

【2019IJCV】
Wu, Shuzhe, Meina Kan, Shiguang Shan, and Xilin Chen. “Hierarchical Attention for Part-Aware Face Detection.” International Journal of Computer Vision 127, no. 6-7 (2019): 560-578.

任务:人脸检测
问题:现在对整个特征图使用同样的卷积核或pooling层,会导致对于不同的候选区域同等对待,而且对于同一候选区域中的不同部分也同等对待

概述

本文研究的任务的人脸检测,其认为以前的方法对整张输入图像的不同位置及每个候选区域的不同部位使用同样的卷积核方法,没有对每个位置进行有针对性地考虑,因此提出了层级注意力方法。
模型首先使用Faster RCNN提出候选区域,对于每个候选区域分为mxn个局部区域,先使用基于高斯核的part-specific注意力机制来得到每个局部的特征,再使用基于LSTM的face-specific注意力机制来得到每个局部特征的关注权重,最终再使用局部特征来进行分类和定位。
损失函数使用分类的交叉熵损失和定位和平滑L1损失。

模型结构

在这里插入图片描述
先使用Faster RCNN的RPN获得候选区域,再对每个候选区域使用层级注意力机制来进行进一步判断和定位。
层级注意力机制由Part-specific和face-specific两部分组成,前者决定局部特征长什么样,后者觉得每个局部特征的重要性,层级注意力机制的输出再经过FC最终获得每个候选区域的判断(是否为人脸)及定位。
1、Part-Specific Attention
在这里插入图片描述
R∈R^{wxh 为RPN提出的候选区域(VGG-16),划分成mxn个局部区域
K(θ_{ij} )为mxn个区域中每个的高斯核
在这里插入图片描述
高斯核初始值定位在每个局部区域的中央,参数更新由一个FC层决定
最终不同局部区域的表示如下
在这里插入图片描述
2、Face-Specific Attention
在这里插入图片描述
在这里插入图片描述
将z特征按照不同位置的顺序放入LSTM,并将LSTM最后输出的c和h拼接,作为全局上下文向量,再经过一个FC,得到该对应局部区域的权重(s),与原来的局部特征进行点乘得到最终特征(u)

再对u使用子网络W(全连接或者卷积层)对每个候选区域进行最后的判断(是否为人脸)和定位

损失函数

在这里插入图片描述
c为类别标签(是否为人脸),l为定位标签
分类的softmax交叉熵损失,定位的平滑L1损失
在这里插入图片描述
在这里插入图片描述

数据集

1、FDDB:2845张图像,5171个标记的人脸(用来测试)
2、WIDER FACE:32203张图像,393703个标记的人脸,分为简单、中等和难三个子集
训练、验证、测试分别有12880/3226/16097张图像
其中训练集用来训练,验证集和测试集用来测试
3、UFDD:6425张图像,10897个标记的人脸(用来测试)

评价指标

FDDB中使用TruePositive率和FalsePositive数量
WIDER FACE使用Precision-Recall曲线和平均准确率(Average Precision)进行评价
UFDD使用平均准确率AP

实验

1、baseline
采用使用VGG-16为backbone的Faster RCNN作为基准模型

在这里插入图片描述
2、层级注意力模型的有效性
对比(1)part-specific注意力中只使用位置参数(μ)
(2)part-specific注意力中使用位置(μ)、强度(σ)和方向(ρ)参数
(3)同时使用part-specific注意力和face-specific注意力
在这里插入图片描述
在这里插入图片描述
3、高斯强度参数(σ)的初始化
在这里插入图片描述
part-specific注意力对于初始化鲁棒

4、注意力图的预测
将本文的基于LSTM的方法于其他的简单方法进行对比
在这里插入图片描述
5、与可变形CNN方法进行对比
在这里插入图片描述
6、注意力图的可视化
在这里插入图片描述
7、错误分析
对漏识别的人脸(missed faces)和误识别的人脸(false alarms)进行定位错误(IoU在0.1到0.5之间)和分类错误(missed faces中由于没有IoU大于0.1和false alarms中的IoU小于0.1)的分析
在这里插入图片描述
8、带有人脸landmark监督的比较
使用Menpo和Helen数据集中8935张图像作为训练集,2330作为测试集,有68点的landmark
在这里插入图片描述
使用landmark监督可能会有利于真假人脸的分类,但是可能会导致定位信息的损失

9、与SOTA的比较
FDDB数据集:
在这里插入图片描述
True Positive率和False Positive数的曲线

WIDER FACE数据集:
在这里插入图片描述
在这里插入图片描述
UFDD数据集:
Average Precision率
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值
>