【人脸属性分类】Deep Multi-task Multi-label CNN for Effective Facial Attribute Classification(FAC)

论文链接:https://arxiv.org/abs/2002.03683

动机

1)人脸检测,人脸对齐和FAC(Facial Attribute Classification)问题都是被独立研究,没有探索过这三类问题的关系;

2)人脸属性预测都是使用的相同的网络结构,但人脸属性的学习复杂度是不一样的;

针对以上的两点问题,作者提出了一个多任务多标签CNN,DMM-CNN(deep multi-task multi-label CNN);DMM-CNN将人脸关键点和人脸属性分类联系起来,同时作者将人脸属性分为两组:客观(objective)属性和主观(subjective)属性。

该篇论文的贡献

  1. 作者将人脸关键点的学习复杂度划分为客观关键点和主观关键点;使用两个不同级别的SPP(Spatial Pyramid Pooling)层(1-level SPP层和3-level SPP layer)用于提取特征。
  2. 一个新的动态加权计划(利用验证集loss的比例)给人脸属性自动赋予权值,使得学习处理集中在困难的人脸属性样本上;
  3. 提出一个自适应的阈值策略;该策略考虑到各个属性样本不均衡性,减少了类别不均衡带来的问题;

详细方法细节

Overview

作者使用了resnet50进行特征提取,同时提取人脸关键点和人脸属性的特征;

作者使用了两个不同的空间金字塔池化(SPP)层,提取不同的语言信息,用于主观属性和客观属性分类;

CNN Architecture

1)Objective Attributes and Subjective Attributes

作者认为主观属性通常以一种微妙的形式,使得CNN难以学的决策边缘,如微笑,年轻这些主观属性,客观属性如戴帽子,戴眼镜;客观属性学习作者使用了1-level SPP层和两个全连接层分别输出1024和22个维度的特征;学习主观属性使用3-level SPP层和三个全连接层,输出特征分别是2048维,1024维,18维(网络设计为主观属性编码了高维语义信息(该信息更有利于主观属性);)

2)The SPP Layer

SPPlayer可以产生固定长度的输出,无论输入尺寸怎样,有效避免了裁剪输入图片;使用SPP后,可以输入任意尺寸的脸部图片;

3)Facial Landmark Detection(FLD)

人脸属性分类是主要任务,而关键点分类是辅助任务,同时标注的关键点增添至72个。

4)Training

为了处理不同人脸属性,作者提出了动态权值计划,自动给不同的属性赋予权值;同时为了减少样本不均衡问题,作者使用了自适应的阈值策略预测多种属性标签;

文中,作者使用了均方误差(MSE)loss;

a. 人脸关键点检测(FLD):MSE在人脸关键点上的形式

 

N:训练图片的总数量, 预测的人脸关键点, 真实标注的人脸关键点;

b.人脸属性分类:MSE loss在FAC上形式:

分别代表了预测属性结果和标签结果,第i张图片的第j类属性;

 

c.联合loss函数:联合loss函数分别是包括人脸属性分类和人脸关键点检测:

是人脸属性总数,  代表在第t次迭代中第j个人脸属性的权值向量。是回归参数,设置为0.5.

 

d.动态加权计划(具体可查看本文参考文献【31】)。

就是验证loss(基于公式2计算)。

 

训练特点:在训练初始化时,容易分类的属性基于较大的权值,以便MSE loss可以快速下降;在最后的训练阶段,网络主要训练难以分类的属性。

e.自适应阈值策略。作者预测第j个人脸属性基于网络结构的最终输出

是阈值参数,为了解决样本不均衡带来的影响,作者提出的自适应阈值策略:

是第t轮迭代的阈值;代表了验证集样本数量; 分别代表了在t轮迭代中假阳例和假阴例的数量;就是固定阈值设置为0.01,DMM-CNN算法总结如算法1, 代表当前的epoch数;

试验:

1、Datasets and Parameter Settings

CelebA和LFWA数据集

2、Ablation Study

作者提出的方法DMM-CNN,基线网络使用resNet50提取特征和属性分类;

DMM-FAC代表只使用属性分类,而不使用人脸人脸关键点辅助功能;

DMM-EQ-FIX代表使用了相同的权值的各个属性,不使用动态的加权计划,使用固定阈值去预测每一类属性;

DMM-DW-FIX代表使用动态加权,但是固定阈值;

DMM-SPP代表使用3-level SPP层和全连接层去预测所有属性(使用相同的网络结构用于主观属性分支),属性也不进行分组;详细结果为表1:

测试结果如图3:

 

结论:

1)和基线相比,所有的变体都获得了更好的结果(特别是:ArchedEyebrowns,Big Lips,Narrow Eyes)该结论强调了人脸属性分类任务需要特别处理;

2)比较DMM-FAC和DMM-CNN,说明探索FAC和FLD之间的关系有助于提升FAC的性能;3)DMM-DW-FIX与DMM-EQ-FIX相比,前者获得了更好的性能,说明动态加权的重要性;

4)通过比较DMM-EQ-AT和DMM-EQ-FIX,,展示了自适应阈值策略的重要性;

5)DMM-SPP和DMM-CNN相比,DMM-CNN获得了更好的效果,展示了设计不同的网络结构对于不同的学习复杂度人脸属性有益,帮助提升FAC的结果;

7)DMM-CNN获得了最佳的效果,说明针对不同的学习难度的人脸属性,DMM-CNN有效提升了多标签多类别任务的性能;

作者还比较了四种最具代表性加权计划:1)统一的加权计划,所有属性权值都设置为1,2)动态加权平均(DWA)计划(在参考文献【30】中提出),在训练集合中loss权值变化用于自动的权值学习;3)自适应加权(AW)计划(在参考文献【38】中提出),验证loss和平均验证loss用于获得权值;4)提出了动态加权计划(DW),基于所有验证集中验证loss值得比例;表2给出了实验结果:

结论:通过表中的结果,可以看出作者的方法获得了最佳的效果;

图5比较动态加权计划(DW)和固定动态加权计划(FIX)的验证集loss;

结论:图5中,作者观察了平均验证loss和两个最具代表性的属性loss(“mouseopen”和“young” )。比较动态加权计划和固定加权计划(权值设定为1)的曲线,可以得知动态加权loss下降比较快。同时客观属性(“mouseopen”)收敛速度快于主观属性;说明动态加权计划对于不同学习复杂度多标签任务具有重要的作用;

图6查看了动态权值的变化:

结论:图6中可以看到两个属性的动态权值不太稳定,主要是因为在训练过程中加权主要依据属性损失的变化。在训练过程中,当loss下降数值较大时,赋予的权值将比较大,因为学习过程中属性没有拟合。动态权值反映了不同属性的学习率;但是两个属性的loss都在下降,而且拟合比较稳定(图5)

图7反应训练过程中自适应阈值的变化

结论,通过曲线可以得知作者提出的自适应阈值,随着迭代的变化,属性阈值变化非常稳定;

3、Comparison with State-of-the-art FAC Methods

结论:

  1. 在celebA数据集上,作者方法优于PANDA,LNets+ANet,MOON,NSA,MCNN-AUX,MCFA,同时作者只分了两组进行训练,少于MCNN-AUX的九组,作者认为使用文中的分组机制和人脸关键点是有效的;与AW-CNN效果相似;
  2. 在LFWA数据集上,作者的方法与MCNN-AUX相比,效果差不多;比GNAS效果好,而且GNAS特别耗时;
  3. 作者提出的方法比PS-MCNN-LC效果差,但是PS-MCNN-LC方法需要人脸身份信息,而且在SNet和TSNet中通道数的选择非常苛刻,容易影响最终的性能;

看此篇论文的疑问:

1、SPP很耗时间?

2、都是客观属性(如:戴帽子,戴口罩)又当怎么处理;

3、人脸关键点检测单独在某类属性中使用又对模型有什么帮助; 

 

 

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
几篇CVPR关于multi-task的论文笔记整理,包括 一、 多任务课程学习Curriculum Learning of Multiple Tasks 1 --------------^CVPR2015/CVPR2016v--------------- 5 二、 词典对分类器驱动卷积神经网络进行对象检测Dictionary Pair Classifier Driven Convolutional Neural Networks for Object Detection 5 三、 用于同时检测和分割的多尺度贴片聚合(MPA)* Multi-scale Patch Aggregation (MPA) for Simultaneous Detection and Segmentation ∗ 7 四、 通过多任务网络级联实现感知语义分割Instance-aware Semantic Segmentation via Multi-task Network Cascades 10 五、 十字绣网络多任务学习Cross-stitch Networks for Multi-task Learning 15 --------------^CVPR2016/CVPR2017v--------------- 23 六、 多任务相关粒子滤波器用于鲁棒物体跟踪Multi-Task Correlation Particle Filter for Robust Object Tracking 23 七、 多任务网络中的全自适应特征共享与人物属性分类中的应用Fully-Adaptive Feature Sharing in Multi-Task Networks With Applications in Person Attribute Classification 28 八、 超越triplet loss:一个深层次的四重网络,用于人员重新识别Beyond triplet loss: a deep quadruplet network for person re-identification 33 九、 弱监督级联卷积网络Weakly Supervised Cascaded Convolutional Networks 38 十、 从单一图像深度联合雨水检测和去除Deep Joint Rain Detection and Removal from a Single Image 43 十一、 什么可以帮助行人检测?What Can Help Pedestrian Detection? (将额外的特征聚合到基于CNN的行人检测框架) 46 十二、 人员搜索的联合检测和识别特征学习Joint Detection and Identification Feature Learning for Person Search 50 十三、 UberNet:使用多种数据集和有限内存训练用于低,中,高级视觉的通用卷积神经网络UberNet: Training a Universal Convolutional Neural Network for Low-, Mid-, and High-Level Vision using Diverse Datasets and Limited Memory 62 一共13篇,希望能够帮助到大家
近年来,半监督深度面部表情识别成为了人们关注的热点问题之一。在这个领域,研究人员一直致力于利用少量有标签的数据和大量无标签的数据来提高面部表情识别的准确性和鲁棒性。Adaptive是一种有效的半监督学习方法,它能够自适应地利用标签和无标签数据,使得深度学习模型在应用于面部表情识别时更加有效。 半监督学习是一种机器学习方法,利用少量有标签的数据和大量无标签的数据来训练模型。在面部表情识别中,往往很难获取大量有标签的数据,而无标签数据却很容易获取,因此半监督学习成为了一种有吸引力的解决方案。通过利用Adaptive方法,研究人员可以更好地利用无标签数据,提高模型的泛化能力和鲁棒性,从而提升面部表情识别的准确性。 Adaptive方法还可以帮助模型在数据分布变化时自适应地调整,使得模型更具灵活性和稳健性。在面部表情识别任务中,由于不同环境和条件下的面部表情具有差异性,Adaptive方法能够使模型更好地适应这种差异,提高识别的鲁棒性。 总之,半监督深度面部表情识别与Adaptive方法的结合,有望提高面部表情识别的准确性和鲁棒性,为人们提供更加高效和可靠的面部表情识别技术。相信随着更多研究和实践的开展,半监督深度面部表情识别将迎来更加广阔的发展前景。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

猫猫与橙子

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值