Expression Snippet Transformer for Robust Video-based Facial Expression Recognition 【论文翻译】

最新推荐文章于 2024-09-12 10:37:07 发布

浅度断墨

最新推荐文章于 2024-09-12 10:37:07 发布

阅读量1k

点赞数 15

分类专栏：你小子还做表情？文章标签： transformer 深度学习人工智能

本文链接：https://blog.csdn.net/m0_52065936/article/details/142151870

版权

你小子还做表情？专栏收录该内容

1 篇文章 0 订阅

订阅专栏

基于视频的面部表情识别的表情片段Transformer

abstract

Transformer的近期成功为各种视觉理解任务提供了新的方向，包括基于视频的面部表情识别（FER）。通过有效建模视觉关系，Transformer在描述复杂模式上表现出了强大的能力。然而，Transformer在捕捉细微的面部表情动作时表现不佳，因为许多视频中的表情动作过于微小，难以提取有意义的时空关系，从而无法实现稳健的性能。为此，我们提出将每个视频分解为一系列表情片段，每个片段包含少量面部动作，并分别增强Transformer在建模片段内和片段间视觉关系的能力，最终得到表情片段Transformer（EST）。具体来说，在片段内建模方面，我们设计了一个注意力增强片段特征提取器（Attention-augmented snippet feature extractor, AA-SFE），通过逐步关注更多显著的信息，增强每个片段中微小面部动作的编码。此外，在片段间建模方面，我们引入了打乱片段顺序预测（shuffled snippet order prediction, SSOP）模块及相应的损失函数，通过训练Transformer识别打乱的片段顺序，提升对相邻片段中细微动作变化的建模能力。我们在四个具有挑战性的数据集（即BU-3DFE、MMI、AFEW和DFEW）上进行了广泛实验，结果表明我们的EST优于其他基于CNN的方法，达到了当前最先进的性能。我们的代码和训练模型可在https://anonymous.4open.science/r/ATSE-C58B获得。

intro

基于视频的面部表情识别（FER）对于理解视频中的人类情感和行为非常重要，广泛应用于数字娱乐、客户服务、驾驶员监控、情感机器人等领域。FER的目标是将视频分类为几种基本情感之一，包括快乐、愤怒、厌恶、恐惧、悲伤、中性和惊讶。FER任务具有多种挑战，包括长时间的时空表示、来自无关帧的过多噪声，尤其是FER视频中面部动作本身细微且难以察觉。

为了解决FER中的问题，现有方法通常使用卷积神经网络（CNNs）或长短期记忆网络（LSTM）。然而，大多数现有的FER方法在建模时空视觉信息时，往往没有引入有效的视觉关系推理机制。例如，许多方法仅使用从手动定义的峰值（顶点）帧中选取的静态帧，忽略了相邻帧之间视觉线索的内在关系。基于序列的方法试图通过编码时空信息来捕捉运动线索，但在描述FER视频中的细微表情变化时表现仍然较弱。此外，它们通常需要极其强大的模型来处理细微的面部变化（trans有人在说我的事？）。

在这里插入图片描述

图1：对比了原生Transformer与提出的表情片段Transformer（EST）在面部表情识别（FER）中建模微小表情动作的表现。原生Transformer（左图）往往只关注具有峰值表情模式的帧，并且容易受到非表情变化等噪声的影响，从而导致次优结果。通过将视频分解为片段，EST（右图）分别改进了对片段内部和片段之间微小表情变化的建模能力，能够实现更为稳健的FER。

q：attention机制不就是为了凸显某一输入/特征与其他元素之间关联的轻重缓急程度，EST这样均匀的分配权重岂不是本末倒置，我感觉作者想强调的点应该在于表情这种特殊模式的内在联系不应通过简单计算相似度的方式呈现？

近期在计算机视觉领域中，Transformer方法的成功使我们能够利用其强大的关系推理能力来理解视频中的表情识别任务。通常情况下，Transformer已被证明在通过建模特征之间的关系，将输入序列转化为目标序列时非常有效（seq2seq）。因此，对于基于视频的表情识别，我们认为Transformer具有更强的潜力来更加稳健地描述细微的表情动作。然而，尽管Transformer具有潜在优势，直接将其应用于表情识别视频并不容易。**原因在于视频中的细微面部表情变化难以被标准的Transformer注意到。**例如，如图1所示，每帧的视觉信息（如原始像素）可能包含噪声（如头部姿态变化、说话等非表情变化），这些噪声容易影响Transformer的识别性能。此外，细微的表情变化可能导致Transformer只关注具有峰值表情变化的帧，从而忽略视频其他时间段内的许多有用的时空信息。这限制了Transformer对整个视频的运动信息进行全面编码，并实现更为稳健的表情识别。
为了解决Transformer应用于表情识别（FER）视频中的上述问题，我们首先提出将整个视频中的面部动作分解为一系列小的表情片段。每个表情片段是由视频中的相邻帧组成的短片段，涵盖了有限的表情变化。接着，通过在这些片段上使用Transformer，我们分别增强了片段内部和片段之间的表情动作建模能力。具体来说，我们引入了一种新颖的注意力增强片段特征提取器（AA-SFE），以改善Transformer对片段内部视觉变化的建模。在AA-SFE中，我们使用深度卷积神经网络（DCNN）提取每帧的视觉特征，并开发了一种层次化的注意力增强架构，以获取每个片段内的面部动作表示。通过AA-SFE生成的片段表示随后被输入到Transformer的编码器-解码器结构中，用于基于片段级别关系进行识别。同时，我们设计了一个随机片段顺序预测（SSOP）头及相应的损失函数，以提高Transformer对片段之间视觉变化的建模能力。通过使用SSOP，Transformer可以更全面地编码所有片段中的信息，从而提供更为稳健的整个视频的表情动作表示。总的来说，我们将所提出的方法简要称为表情片段Transformer（EST）。

总结一下，本论文的主要贡献如下：

我们提出了表情片段Transformer（EST），以实现准确的视频面部表情识别（FER）。据我们所知，这是第一个有效的基于片段的Transformer方法，专用于视频FER。
为了增强Transformer在片段内部和片段之间建模表情变化的能力，我们分别提出了注意力增强片段特征提取器（AA-SFE）和打乱片段顺序预测（SSOP）。这两种技术有效解决了基于Transformer的FER问题，大幅提升了识别性能。
在四个具有挑战性的视频面部表情数据集上进行的评估（BU-3DFE、MMI、AFEW和DFEW）显示，我们提出的EST相较于现有的流行方法具有显著优势，且在评估的数据集上达到了最先进的性能。

RW

帧基方法可以分为两类：一类是帧聚合方法，它通过融合静态面部表情识别网络学习到的深度特征来进行表情识别，如Meng等人提出的帧注意力网络，自适应聚合帧特征并在AFEW 8.0数据集上取得了51.18%的准确率；另一类是峰值帧提取方法，主要识别高强度表情的峰值帧，如Zhao等人提出的峰值引导深度网络（peak-piloted deep network， PPDN），用于识别强度不变的表情。此外，Yu等人提出了更深的级联峰值引导网络（deeper cascaded peak-piloted network，DCPN），通过级联微调的方式增强特征的区分能力，PPDN和DCPN分别在CK+数据集上达到了99.3%和99.9%的最佳准确率。然而，这些方法仅依赖于静态帧，缺乏对视频中表情的时空关系的强大建模能力。

动态序列方法 为了更好地探索表情的时空表示，动态序列方法将视频序列作为单一输入，利用序列中的纹理信息和时间依赖性来实现更稳健的表情识别。这类方法包括LSTM和C3D这两种广泛使用的时空方法。Vielzeuf等人首先使用预训练的VGG-Face提取空间特征，然后利用LSTM层来编码序列中的时间依赖性。Kim等人提出了一种新的时空特征表示学习方法，通过集成C3D和LSTM网络，使其对表情强度变化具有较高的鲁棒性。尽管C3D网络能够捕捉到表情的时空变化，但其引入了昂贵的空间和计算复杂性来更有效地学习细微的表情动作。

Transformer 由Vaswani等人首次提出 [42]，作为一种用于机器翻译的新型基于注意力的构建模块。Transformer 包括自注意力层，用于扫描序列中的每个标记，并通过从整个序列中聚合信息来学习标记之间的关系，取代了许多任务中的RNN，例如自然语言处理（NLP）、语音处理和计算机视觉 [8, 28, 38, 36, 34, 6]。最近，Nicolas等人将基础Transformer架构扩展到了目标检测领域，并提出了DETR算法 [4]。Girdhar等人提出了一种动作Transformer，用于从视频中的空间-时间上下文中聚合特征，以实现动作识别 [33]。Transformer 已成功应用于计算机视觉任务，如目标检测和动作识别。然而，将原始Transformer应用于捕捉未裁剪视频中的细微表情动作仍然具有挑战性，原因在于噪声和输入帧中的运动变化有限。

EST

在这里插入图片描述
图2：EST在视频基础上的FER训练流程。通过使用表情片段，我们应用了AA-SFE和SSOP头部，以提高Transformer对片段内/片段间表情运动和相关性的建模能力，从而实现鲁棒的FER。

架构

图2展示了EST的整体架构。首先，我们从输入视频中收集表情片段。对于每个片段，我们应用AA-SFE来提取每个片段的特征。然后，我们使用带有SSOP头部的Transformer来实现鲁棒的表情理解。在接下来的章节中，我们将详细解释表情片段、Transformer、AA-SFE和SSOP。

表情片段

我们将输入视频分解为一系列片段，以增强Transformer在每个片段内和不同片段之间建模细微视觉变化的能力。形式上，给定一个输入的FER视频C，我们将其分解为一系列较小的子视频：C = {C1, C2, …Cn}，其中Ci表示第i个子视频，n是子视频的总数。每个子视频Ci指的是一个表情片段，包含视频中的若干相邻帧。所有片段具有相同的长度，并且按时间顺序排列。

Transformer架构

我们首先使用AA-SFE提取片段特征，这将在后文讨论。利用这些片段特征，我们在这里应用Transformer来建模片段之间的表情变化，并发现更为鲁棒的情感表示用于FER。我们遵循典型的Transformer构造，应用基于多头注意力的编码器-解码器管道进行处理。通常，多头注意力机制估计query张量与key张量之间的相关性，然后根据相关性结果聚合值张量，以获得注意后的输出。有关Transformer的更多细节，请参阅[42]。

在我们的方法中，我们使用编码器对片段特征进行编码，然后使用解码器将编码后的特征转换为更为鲁棒的表情表示。设 $R_i ∈ R^d$ 表示第i个子视频Ci的提取片段特征，大小为d，R = {R1, R2, …Rn}。我们将R输入到EST的Transformer编码器中。在编码器中，对于每个多头注意力头，我们对片段特征Ri执行线性投影，以获得相应的查询向量qi、键向量ki和值向量vi，所有qi、ki、vi的大小均为d。

然后，我们将不同片段的查询向量、键向量和值向量堆叠起来，分别得到查询张量Q、键张量K和值张量V。 $Q、K、V ∈ R^n×d$ 。接下来，我们根据得到的Q、K和V在片段之间执行自注意力机制。此外，我们应用片段位置编码来描述片段在视频中的位置，采用正弦和余弦位置编码方法[42]。编码器的输出是编码后的片段特征 $H ∈ R^n×d$ 。

在这里插入图片描述

其中，A(·) 表示自注意力机制。在本研究中，我们采用了3层编码器，每层有4个注意力头。在通过自注意力机制对片段特征进行编码之后，解码阶段则应用交叉注意力机制，将编码后的特征H解码为情感表示T，且T ∈ R^d。我们为解码器引入了一个情感查询嵌入，以表示多头注意力的查询张量。情感查询嵌入与T具有相同的维度。我们使用编码后的特征H来表示解码器中的键和值张量。在实际应用中，我们堆叠了3层解码器，每层有4个注意力头，以逐步优化解码结果。

在编码器-解码器处理后，我们使Transformer输出两个结果，形成两个预测头。第一个头部基于一个3层感知网络，用于表达识别预测，将T分类为不同的情感类型。第二个头部是SSOP，它用于估计正确的片段顺序，因为片段已经被打乱。我们将在后续部分详细讨论SSOP。

增强注意力的片段特征提取

在这里插入图片描述

AA-SFE.

直接在原始帧上应用 Transformer 可能效果不佳，因为像素中的视觉噪声会使得获得稳健的表情表示变得困难。通过使用片段，我们引入了一种新颖的增强注意力的片段特征提取器（AA-SFE），以提高 Transformer 在建模片段内部表情运动方面的能力。AA-SFE 改进了片段内帧之间空间-时间信息的编码。

图 3 展示了 AA-SFE 的结构。特别是，在普通的深度卷积神经网络（如预训练的 ResNet-18）的帮助下，AA-SFE 采用了分层注意力增强来建模片段内部信息。分层注意力旨在逐步提取片段的更具代表性的特征，逐渐过滤掉较少有意义的非表情信息，从而减少每帧特征中噪声的负面影响。我们主要应用了两级层次的注意力来建模细微的视觉变化。第一层提取帧级别的注意力，第二层则专注于提取片段级别的全局注意力。

对于第一层级，我们研究帧级关系以获取注意力。类似于 Transformer，我们在这里应用自注意力进行关系建模。数学上，我们用 $r_{j,i}$ 表示第 i个片段中第j帧的特征向量。我们提取深度卷积神经网络（DCNN）的全局平均池化输出作为每帧特征： $r_{j,i} \in \mathbb{R}^d$ 。假设每个片段有 J帧，通过堆叠第 i 个片段中的所有特征 $r_{j,i}$ ，我们得到张量 $I_i \in \mathbb{R}^{J \times d}$ 。由于在此阶段我们仅考虑单个片段的帧，为简化起见，这里省略符号 i，即 $I = I_i$ ， $r_j = r_{j,i}$ 在此部分中。

使用线性投影，我们将 I 转换为三个张量：查询张量 $I_Q$ ，键张量 $I_K$ ，和值张量 $I_V$ 。然后，我们在 $I_Q$ ， $I_K$ ， $I_V$ 上应用自注意力（如公式 1 所述），以获得注意后的特征 $\in \mathbb{R}^{J \times d}$ 。

在第二层级中，我们引入了片段级的全局信息，以进一步细化片段的表示。首先，我们将 $I^{'}$ 汇总成一个统一的通用特征向量。然后，我们估计通用特征与每帧特征之间的关系。获得的关系随后用于重新加权每帧特征，以进行细化。最后，经过细化的特征被缩减为一个单一的表示，以描述整个片段。

更具体地，我们用符号 $\hat{r}_0$ 表示 $I^{'}$ 的通用特征向量，其尺寸为 $d$ 。它是通过对 $I^{'}$ 进行跨帧最大池化得到的。接着，我们使用余弦相似度来估计 $\hat{r}0$ 与每帧特征之间的关系。我们将 $r{0j}$ 表示为 $I^{'}$ 中对应于第 $j$ 帧的特征。我们计算 $\hat{r}0$ 与每个 $r_{0j}$ 之间的余弦相似度 $\alpha_j$ 。

在这里插入图片描述

其中 $\|\cdot\|$ 表示欧几里得范数。通过估算出的关系 $\alpha_j$ ，我们可以识别出哪些帧包含更多的偏差信息，这些信息更有可能包含与表情无关的噪声。因此，我们通过基于以下公式对每帧特征进行重新加权和聚合，得到汇总后的片段特征：

在这里插入图片描述

总而言之，AA-SFE 的自注意力机制首先提供了强大的关系建模，促进了帧级空间-时间信息的编码。随后，我们引入了基于余弦相似度的第二层级注意力建模，来考虑片段的全局运动信息，进一步抵抗每帧中存在的噪声。根据公式 2 到 3，注意力机制能够识别更有用的片段内视觉变化信息，并有助于计算更加集中的片段特征 $R_i \in R^d$ 。实验结果证明，AA-SFE 提供的片段特征比普通基于自注意力的 Transformer 更优。

SSOP

通过片段特征 R 和 Transformer，我们可以估计视频中的表情。然而，我们观察到 Transformer 通常只关注具有峰值表情变化的片段，而忽略了视频的其余部分。这种情况的发生是由于 Transformer 的交叉注意力建模机制可能容易忽视相邻片段中的细微运动变化。实际上，Transformer 往往难以全面地对所有片段进行跨片段关系建模，从而容易被峰值片段中的噪声信息分散注意力。为了使 Transformer 更全面地建模表情动作，避免忽视非峰值片段中的细微视觉变化，我们进一步引入了一个打乱片段顺序预测（SSOP）头及相应的损失函数，以辅助 EST 的训练。SSOP 的算法如算法 1 所示。

在这里插入图片描述

为了使用 SSOP 训练 Transformer，我们主要将片段打乱顺序，并让 Transformer 预测这些打乱后的片段顺序。例如，如果我们有 7 个片段，打乱后的顺序可能为 $S = (3, 2, 7, 1, 4, 6, 5)$ 。在实际操作中，我们生成 10 种不同的打乱顺序类型，然后从所有生成的顺序中随机抽取一个顺序，并相应地重新排列片段。带有打乱顺序的片段随后被发送到 EST 中。在提取情感信息 $T$ 后，我们将 $T$ 与 $\in R^{7 \times d}$ 融合，得到用于预测打乱顺序的特征。我们将这种类型的特征称为时间顺序敏感特征 $\in R^{7 \times d}$ 。关于 $O$ 的计算可以在算法 1 中找到。接着，我们在 $O$ 上应用三层全连接层来定义 SSOP 头，用于预测当前的打乱顺序。该预测是通过分类输出获得的。因此，使用 SSOP 训练 Transformer 涉及最大化后验概率估计（MAP），其相关的条件概率密度函数为:

在这里插入图片描述

其中， $O_i$ 表示片段 i 对应的特征向量， $C_i$ 代表第 $i$ 个片段。

在实际应用中，虽然 Transformer 中有位置编码，但如果没有 SSOP，来自非峰值片段的顺序和运动信息通常难以被充分编码，因为面部变化十分细微。相反，通过 SSOP 训练 Transformer 来识别打乱的片段顺序，可以确保每个片段的信息都得到适当关注。结果是，Transformer 会对片段间的视觉变化更加敏感，能够更全面地描述整个视频中的表情变化。此外，SSOP 还可以增加训练时表情变化模式的多样性，而无需额外的人工标注。

SSOP

SSOP（Shuffled Snippet Order Prediction，打乱片段顺序预测）的主要作用是帮助Transformer更全面地捕捉视频中的表情变化，尤其是那些不太明显的变化。具体来说，SSOP通过以下几种方式来改进表情识别：
1. 提升片段间的关联建模：在没有SSOP的情况下，Transformer往往只关注视频中表情变化最明显的片段（即峰值片段），忽略其他部分的细微变化。而通过SSOP，Transformer不仅要学习表情本身，还要学会预测片段的顺序。这样一来，模型被迫更加关注每个片段的细微信息，不再仅仅依赖于最明显的表情变化。
2. 增强对细微视觉变化的敏感性：打乱片段顺序让模型不得不去处理不同片段之间的差异和关系，而不是只集中在最明显的片段。这使得Transformer在训练过程中更加关注视频中每个片段的细微表情变化，从而提高整体的表情识别能力。
3. 无额外标注增强训练数据：通过打乱片段顺序，SSOP增加了模型需要学习的顺序模式，这相当于增加了训练数据的多样性，而无需额外的人工标注。这对模型的泛化能力有帮助，因为它可以学到更多不同的表情变化模式。

优化目标

翻译如下：

在训练过程中，EST有两个目标。第一个是面部表情识别（FER）的分类损失 $L_{cls}$ ，第二个是打乱片段顺序预测的损失 $L_S$ 。我们使用交叉熵损失进行优化。数学上，FER的损失 $L_{cls}$ 可以写作：

$L_{cls} = -\sum_C \left( Y_C \cdot \log[Y_C^\wedge] + (1 - Y_C) \cdot \log[1 - Y_C^\wedge] \right),$

其中， $Y_C$ 表示每个视频的面部表情标签， $C$ 是训练视频的索引， $Y^\wedge_C$ 表示EST预测的面部表情的概率。

为了识别打乱的片段顺序，我们为SSOP引入了损失函数 $L_S$ ，其基于以下公式：

$L_S = -\sum_C \left( S_C \cdot \log[S_C^\wedge] + (1 - S_C) \cdot \log[1 - S_C^\wedge] \right),$

其中， $S_C^\wedge$ 表示EST预测的打乱顺序的排列类型， $S_C$ 是指示正确排列类型的one-vs-all标签。

实验

数据集

为了评估我们的方法，使用了四个面部表情数据集：BU-3DFE 数据集 [48]，MMI 数据集 [41]，AFEW8.0 数据集 [9]，和 DFEW 数据集 [16]。

BU-3DFE [48]：包含6种情感标签的3D面部表情，即愤怒、厌恶、快乐、恐惧、悲伤和惊讶。BU-3DFE 包含来自101名受试者的606个3D面部表情序列。每个表情序列大约包含100帧。
MMI [41]：共收集了来自30名受试者的205个表情序列。这些表情序列以24帧/秒的时间分辨率记录。数据集中的每个表情序列都标有6种基本表情类别之一（即愤怒、厌恶、恐惧、快乐、悲伤和惊讶）。
AFEW [9]：自2013年以来，AFEW 作为年度 EmotiW 的评估平台。AFEW 包含七种情感标签，即愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。AFEW 包含从不同电影和电视剧中收集的视频，具有自然表达、各种头部姿势、遮挡和光照条件。AFEW 分为三个部分：训练集（738个视频），验证集（352个视频），测试集（653个视频）。
DFEW [16]：DFEW 是一个大规模的非限制性动态面部表情数据库，包含16,372个从1500多部不同电影中提取的视频片段。它包含12,059个单标签视频片段，并且同样包括七种情感标签，即愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

片段提取和实施细节

我们首先通过插值和剪辑操作将视频长度统一为105帧，并通过Retinaface [7]检测每帧的面部区域，将其调整为224×224的大小。接着，从前30帧中随机选择一个起始帧，提取接下来的75帧形成一个视频。然后，将75帧分成7个子视频，每个子视频包含15帧，且每个子视频之间有5帧重叠。为了增强表情运动的变化，从每个子视频中随机抽取5帧，形成一个新的子视频，即表情片段。因此，n = 7，j = 5。训练时，这7个片段会以随机顺序打乱（片段内部的帧顺序保持不变）。在测试时，我们仅使用正常的片段顺序作为输入以进行稳健的面部表情识别（FER）。

我们使用Pytorch实现了EST。关键的训练参数包括初始学习率（0.0001），调整学习率的余弦退火调度，小批量大小（8），以及预热策略。实验在配备Intel® Xeon® Gold 6240C CPU（2.60GHz）、128GB内存和NVIDIA GeForce RTX 3090的PC上进行。按照其他对比方法的设置，我们在BU-3DFE和MMI上进行了10折独立验证，在AFEW上进行了训练集/验证集的验证，并在DFEW数据集上进行了5折验证。我们将在论文接受后将源码发布到Github。

在BU-3DFE上的实验

在这里插入图片描述

图 4(a) 显示了使用我们的方法进行视频 FER 的 BU-3DFE 的混淆矩阵。 6种表情中，happy和surprise的准确率最高，为95.0%，而fear的准确率最低，为80.0%，fear是面部表情动作最少的，与disgust很难区分。平均 FER 准确率为 88.17%。

在这里插入图片描述

表1中，EST的平均面部表情识别（FER）准确率与最新的几种方法进行了对比，包括DeRL [46]、FAN [32]、ICNP [54]、C3D [40]、2D+3D模型 [30]、FERAtt+Rep+Cls [31]以及C3D-LSTM [35]。与最佳的序列基础方法相比，所提出的EST提高了4.97%的准确率。这表明我们的方法能够通过建模视频中的长距离情感运动关系，有效发现更有利的情感相关线索。

MMI

在这里插入图片描述

图4(b)展示了使用我们的方法在MMI数据集上进行视频表情识别（FER）的混淆矩阵。在“惊讶”类别中，我们达到了100%的准确率。FER的平均准确率为92.5%。与最新的视频表情识别方法相比，表2列出了使用深度学习基于空间特征表示的方法（如AUDN [27]、DeRL [46]、LSTM [18]、深度生成对比网络（DGCN）[19]、Ensemble Network [37]、SAANet [26]、WMCNN-LSTM [50]、WMDCNN [50]）、基于手工特征的方法（如从顶点帧中提取的协同表情表示（CER）和从整个序列中提取的LPQ-TOP [15]）在MMI数据集上的平均准确率，以及我们的EST。如表所示，提出的EST优于现有的最先进的FER方法。与第二好的方法Ensemble Network [37]相比，EST的准确率提高了1.04%。

AFEW

在这里插入图片描述

图4©展示了在具有挑战性的AFEW数据集上进行表情识别（FER）的混淆矩阵。FER的平均准确率达到了54.26%。最高准确率为“快乐”类别，达87.04%，其次是“愤怒”和“中立”，分别达到了78.69%和75.81%。虽然“厌恶”和“恐惧”类别的准确率相对较低，但我们的方法在识别这两种情绪时仍然优于其他方法。这可能是因为我们更好地建模了片段之间细微表情变化的关系。表3列出了使用EST和最新方法的准确率，表明我们的方法在表现上具有极大的鲁棒性，同时在真实环境中的表情数据集上明显优于其他算法。

DFEW

在这里插入图片描述

图4(d)展示了在大规模DFEW数据集上进行表情识别（FER）的混淆矩阵。使用我们的方法，FER的平均准确率达到了65.85%。其中“快乐”类别的准确率最高，达86.87%，其次是“愤怒”，达71.84%。虽然由于DFEW数据集中类别不平衡（“厌恶”类别仅占1.22%），我们在“厌恶”类别中的准确率仅为5.52%，但表4中的对比结果显示，我们的方法仍然远优于其他算法。更详细的对比结果可以在表4中看到。与文献[16]中报道的最新方法相比，我们的EST在FER准确率上有了显著提升（超过9.34%）。

消融实验

在这里插入图片描述

为了更好地理解每个模块在所提出的EST中的作用，表5展示了逐步添加AA-SFE和SSOP组件到基准Transformer框架的消融实验结果。仅使用Transformer在BU-3DFE数据集上的视频表情识别（FER）准确率为85.60%。进一步集成AA-SFE后，准确率提升至87.12%，因为AA-SFE通过联合层次化注意力机制有助于提取片段级特征。由于学习了顺序敏感的特征表示，添加SSOP使准确率增加了1.05%。

此外，表6列出了不同注意力选择下AA-SFE的识别结果。显然，AA-SFE中使用的双层级注意力在不增加计算成本的情况下取得了最佳性能，有助于描述更具信息性的片段特征。

在这里插入图片描述

此外，图5展示了SSOP在EST中的效果分析。具体来说，图5(a)展示了在有SSOP和没有SSOP的情况下，EST中注意力权重最高的片段的索引分布。没有SSOP（见图5(a)中的深蓝色柱子）时，我们可以观察到EST总是集中在第3个片段上，该片段通常包含每个测试视频中的峰值变化。相比之下，SSOP可以使EST对所有片段分配类似的注意力。我们进一步在图5(b)中使用t-SNE可视化展示了2D空间中的编码情感表示，比较了使用SSOP和不使用SSOP的结果。结果显示，SSOP通过全面建模片段间的视觉变化，有助于获得更具区分性的表示。

在这里插入图片描述

模型复杂性 表7报告了三种时空学习方法在AFEW数据集上的模型参数和计算成本。总体而言，我们的EST在保持较小计算成本（63.89G MACs）和实时速度（412 fps）的情况下，达到了最佳性能（准确率为54.26%），这表明所提出的方法在准确性和效率上都有所提升。更多的消融研究和讨论请参见补充材料。

结论和未来工作

本文提出了一种新颖的表情片段Transformer（EST），旨在更好地建模微妙的面部表情线索，以提高未剪辑视频中的面部表情识别鲁棒性。EST由四个主要组件组成，即片段分解、基于片段的特征提取器、基于编码器-解码器的Transformer以及洗牌顺序预测头。由于有效且高效地建模了长距离表情时空关系和细微的片段内/间视觉变化，所提出的方法在基于视频的面部表情识别中实现了显著的性能提升和强大的鲁棒性；在四个具有挑战性的数据集（BU-3DFE、MMI、AFEW和DFEW）上，分别达到了88.17%、92.5%、54.26%和65.85%的最高准确率。未来，我们将引入自监督学习到Transformer中，以从复杂的未标记视频中建模提取丰富的情感特征。

浅度断墨

关注

15
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
Expression Snippet Transformer for Robust Video-based Facial Expression Recognition 【论文翻译】

Transformer的近期成功为各种视觉理解任务提供了新的方向，包括基于视频的面部表情识别（FER）。通过有效建模视觉关系，Transformer在描述复杂模式上表现出了强大的能力。然而，Transformer在捕捉细微的面部表情动作时表现不佳，因为许多视频中的表情动作过于微小，难以提取有意义的时空关系，从而无法实现稳健的性能。为此，我们提出将每个视频分解为一系列表情片段，每个片段包含少量面部动作，并分别增强Transformer在建模片段内和片段间视觉关系的能力，最终得到（EST）。
复制链接

扫一扫

专栏目录