动态表情识别

Intensity-Aware Loss for Dynamic Facial Expression Recognition in the Wild

(Li 等, 2023, p. 67) (pdf) 🔤野外动态面部表情识别的强度感知损失🔤
#AAAI2023
GitHub - muse1998/IAL-for-Facial-Expression-Recognition: Dynamic Facial Expression Recognition

[!motivation]
SFER 数据集的标注,表情的强度均匀,且比较高;而 DFER的数据表情的强度是不均匀的,有大有小,而标注是不含有强度相关信息。模型平等的对待每一个 sample, 就会导致类内误差大,类间误差小

Pasted image 20231224175534

[!method]
global convolution-attention block (GCA)

  • 调整low-sample 的特征图的通道,抑制无用的通道,增强重要的通道
  • Pasted image 20231224185119
    Pasted image 20231224175544

Intensity-aware Loss
L I A = − l o g ( P I A ) L_{IA}=-log(P_{IA}) LIA=log(PIA)
P I A = e x t e x t + e x m a x = 1 1 + e x m a x − x t P_{IA}=\frac{e^{x_t}}{e^{x_t}+e^{x_{max}}} = \frac{1}{1+e^{x_{max }-x_t}} PIA=ext+exmaxext=1+exmaxxt1
x t x_t xt是 logits of the target, x m a x x_{max} xmax 是除了 target以外最大那个。目标就是 x m a x − x t x_{max}-x_t xmaxxt越大越好, 拉大这两个的差距, 减少模型的 confuse

实现细节和实验

Train from scratch
采样策略使用了动态采样:先把 clip 分成 N 个 segments, 再从每个 segment 采M 帧,最后得到NxM
Pasted image 20231224184052
Pasted image 20231224184342
Pasted image 20231224184408

[!comment]

  • 提出的模块比较简单,GCA 似乎是有效的,能调整不同的通道?但是并不是显示的,感觉和他宣称的调整 low-sample 的特征图的通道,抑制无用的通道,增强重要的通道 不是很明显。基于 Sample 的 Intensity
  • IAL loss 确实比较巧妙,拉大了区分度,减少了模型对 ambiguous sample 的 confuse.
  • 本文是基于 sample 的 intensity, 不同的 sample 有不同的 intensity, 但是一个 sample 里面每一帧的或者每一个小的 segment 的 intensity 也是不一样的。能否利用这个去选取不同的 segment #idea

Dual subspace manifold learning based on GCN for intensity-invariant facial expression recognition

(Chen 等, 2024, p. 1) (pdf) 🔤基于GCN的双子空间流形学习强度不变面部表情识别🔤
华中师范大学
作者提出了一种新颖的方法,利用图卷积网络(GCN)进行强度不变的FER。以下是论文的主要内容和结构的摘要:

摘要:

  • 问题:FER模型在应对同类表情内部的差异时,尤其是表情强度变化时,存在挑战。
  • 解决方案:提出了一种基于GCN的双子空间流形学习方法,将任务视为节点分类问题。该方法结合了局部保持投影(LPP)和以峰值为导向的局部保持投影(PLPP)进行流形表示。
  • 结果:该方法在标准数据集上取得了显著的准确率,超越了最先进的方法。

引言:

  • FER的重要性:FER对于理解人类情感至关重要,且在多个领域有应用。
  • 挑战:FER的主要挑战是由于强度变化等因素导致同一类表情内部的显著变化。
  • 贡献:论文通过提出一种基于GCN的流形学习方法来解决这些挑战,以提高FER模型的强度不变性。

相关工作:

  • 论述了从PCA和LDA等传统方法到最近的深度学习方法。指出了现有方法在处理类内变化和强度差异时的局限性。

方法论:

Pasted image 20231224191318

  1. 基于图的子空间分析:引入使用图来分析子空间中数据的概念,专注于保持局部关系。
  2. 以峰值为导向的局部保持投影(PLPP):一种新颖的方法,维持峰值和非峰值表情之间的局部性,增强弱表情表示。
  3. 基于LPP/PLPP的图卷积网络:将LPP和PLPP的特点与GCN结合,以实现更好的分类。
  4. 加权邻接矩阵和基于注意力的GCN:提出了融合LPP和PLPP子空间以提升FER性能的方法。

[!method]

基于图的子空间分析:

  • 目的:该方法的核心是通过保持数据在子空间中的局部关系来提高FER的精确度。
  • 实现:通过构建一个图结构,其中每个节点代表一个表情样本,节点之间的边反映了样本之间的局部邻近性。这种结构有助于模型捕捉和保持表情数据的内在几何结构。

以峰值为导向的局部保持投影(PLPP):

  • 核心概念:PLPP旨在增强模型对于不同强度表情的表示能力,尤其是对于弱表情的识别。
  • 操作:PLPP通过识别每类表情的典型峰值表情,然后确保在学习过程中峰值表情与其他同类表情之间保持较强的局部连通性。这样可以帮助模型更好地理解不同强度表情之间的关系。

基于LPP/PLPP的图卷积网络:

  • 融合策略:该方法结合了局部保持投影(LPP)和PLPP来提取和融合表情数据的特征。LPP注重于保持样本的局部线性结构,而PLPP专注于表情强度的差异。
  • GCN应用:将LPP和PLPP提取的特征输入到GCN中,利用GCN的节点分类能力来提高表情识别的准确率。GCN通过其层次结构能够有效捕捉和利用图结构中的复杂模式。

加权邻接矩阵和基于注意力的GCN:

  • 加权邻接矩阵:为了更好地捕捉样本之间的关系,方法引入了加权邻接矩阵来表示节点间的连接强度,这有助于强化模型对于重要连接的关注。
  • 注意力机制:通过引入注意力机制,模型可以更有效地识别和利用对分类最有帮助的特征和节点间关系,进而提高FER的性能。

实验:

  • 数据集:描述了使用的数据集(CK+、Oulu-CASIA、MMI、MAFW)及其相关性。
  • 实验设置:详细说明了预处理步骤、模型训练和评估指标。
  • 结果:展示并讨论了各种实验的结果,与其他最先进方法进行了比较。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值