人脸表情识别论文阅读笔记1:A Compact Deep Learning Model for Robust Facial Expression Recognition

FER方法有两种,一是image-based方法;二是sequence-based方法,分别对应于静态图像数据集(eg:FER2013)和视频序列数据集(eg:CK+、Oulu-CASIA)。
论文概述
该论文来自2018年CVPR:
1.提出一种轻量型(compact)frame-based人脸表情识别模型,在性能不逊色state-of-the-art方法的同时参数量更少;
2.提出frame-to-sequence方法,通过门控循环单元(GRU)来使用时间信息;
3.收集三个不同场景的数据集,用来评估跨域性能;
4.提出光照增强方案以解决通过混合数据训练深度网络的过拟合问题,提高模型鲁棒性
模型介绍
frame-basedFER框架总体结构如下:
在这里插入图片描述
由此可见,整体框架分为两个部分:人脸预处理和CNN分类模型。其中,人脸预处理使用IntraFace检测出的人脸特征点裁剪人脸区域;CNN分类模型结构如下:
在这里插入图片描述
模型由两层卷积层(每层卷积层由两个卷积层构成)和两个全连接层构成,卷积核大小均为5X5,输入图片大小为96X96。
模型设计原因:
1.简单网络(plain model)能够在FRR任务中取得不错效果;
2.使用大卷积核(5X5)保证神经元拥有更大感受野;感受野相关内容参见:我的博客
3.大幅减少全连接层神经元数量,使得网络参数量大幅减少(实验结果证明只要合理设计感受野,人脸表情特征可以通过轻量型网络进行学习)。
frame-to-sequence方法:CNNs+RNNs
图片序列人脸表情数据集通常从中性表情开始,逐渐过渡到峰值表情。
将frame-basedFER预训练模型当作一个特征提取器(feature extractor),然后使用特征提取器得到图片序列对应概率分布,将一系列概率分布作为门控循环神经网络的输入,frame-to-sequence模型由一个GRU(128)和一个softmax层组成。
在这里插入图片描述
优点:
1.适用于不同场景,泛化能力强;
2.不容易过拟合,训练frame-based模型,可以将图片进行数据增强,这是sequence-base方法无法做到的;
3.使用时间(temporal)信息,提高识别准确率。
数据集介绍:
1.CK+(the Extended Cohn-Kanade database):由327个带标签的图片序列(7种表情)构成;
2.Oulu-CASIA:由480张带标签的图片序列(6种表情)构成。
训练细节:
权重初始化:xavier;学习率:0.001;momentum:0.9;optimizer:ADAM;10折交叉验证。
实验结果:
1.CK+数据集效果对比:
在这里插入图片描述
2.Oulu-CASIA数据集效果对比:
在这里插入图片描述

  • 3
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值