DPCNet

DPCNet

研究背景及现状

  • 目前的视频面部表情学习工作消耗了大量的计算资源来学习空间通道特征表示和时间关系;
  • 与基于图像的FER相比,基于视频的FER不仅使用cnn提取视频序列的外观特征,还使用递归神经网络(rnn)或lstm提取时间动态。
  • 对于视频中的面部表情表示,有两种主流架构,包括3D卷积神经网络和2D卷积神经网络,其次是长短期记忆(LSTM),级联的CNN-LSTM框架,其中cnn提取连续面部帧的外观特征,LSTM进一步计算其时间动态;
  • 基于交叉熵的Softmax损失用于表情识别,但它在学习重要特征方面存在困难,深度人脸识别中的对比损失和三联体损失也适用于FER区域。然而,训练样本的选择会影响这两种损失函数的稳定性和鲁棒性;

模型介绍

  • 提出了空间-框架激励模块,采用空间特异性激励框架特异性激励级联的方式(为了在全空间分辨率下突出表达特异性特征,我们设计了空间特异性激励);
    在这里插入图片描述
  • 尽管LSTM用于学习空间框架特征之间的长期依赖关系,但它仍然将通道感知特征和时间信息视为对最终表达式识别的同等贡献;
  • 设计了一个通道-时间聚合模块(CTAM),通过对通道感知和时间感知特征进行元素加(尽管LSTM用于学习空间框架特征之间的长期依赖关系,但它仍然将通道感知特征和时间信息视为对最终表达式识别的同等贡献);
    在这里插入图片描述

学习目标

  • 为了使SFEM所表示的空间帧特征保持一致,我们设计了一个基于自监督学习的多帧正则化损失算法;
  • 为了使双路径分类器获得一致的预测,我们提出了基于Jensen-Shannon散度的双路径正则化损失,旨在最小化双路径表达概率分布之间的距离;

减少对计算源的依赖,对所有原始图像进行基于人脸地标的预处理,生成人脸图像,将图像大小调整为120 × 120,并通过比例抖动随机裁剪为112 × 112
DPCNet在DFEW的5个设置中表现一致,并且在快乐表情中达到了90%的最高平均识别率,但在厌恶和恐惧表情中混淆主要是由于有限的数据和严重的长尾数据分布

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值