Multimodal emotion recognition from facial expression and speech based on feature fusion
题目 | Multimodal emotion recognition from facial expression and speech based on feature fusion |
---|---|
译题 | 基于特征融合的面部表情和语音多模态情感识别 |
时间 | 2022年 |
期刊 | Multimedia Tools and Applications |
摘要:多模态情绪识别旨在利用表情和语音信息来识别个体行为。特征融合可以丰富各种模态信息,是多模态情感识别的重要方法。然而,由于大的特征尺寸,存在一些模态信息同步和过拟合问题。因此,引入了一种注意力机制来自动化网络,以关注本地有效信息。它用于执行网络中的音频和视频特征融合任务以及时序建模任务。主要贡献如下:1)使用多头自注意机制进行音频和视频数据的特征融合,以避免先验信息对融合结果的影响;2)使用双向门控递归单元对融合特征的时间序列进行建模;此外,还计算了时间维度上的自相关系数,作为融合的注意事项。实验结果表明,所采用的注意机制可以有效地提高多模态情绪识别的准确率。
1 引言
1.1 多模态情感识别
情感识别是人与机器互动的重要组成部分,因为情感信息对人类交流至关重要。情绪识别可以应用于不同的领域,例如监测和预测个人的疲劳状态、评论评级[39]或抑郁[2]。情绪识别也可以用于呼叫中心,以检测呼叫者的情绪状态并提供服务质量反馈。
情绪识别的任务是具有挑战性的,因为人类的情绪会出现不同的时期,不同的个体以不同的方式表达和感知情绪。面部表情[33]、语音[14,30]、文本[16,34,40]、手语[32]和脑电图[20]都包含情感信息。近年来,人们对多模态情绪识别[26,28,36]进行了研究,以克服单模态情绪识别的局限性。与单模态情感识别相比,多模态情感识别,如视听情感识别,可以获得更好的识别结果。特别是,面部表情和语音的双峰情绪识别已成为多模态情绪识别中的一种流行方法,许多研究人员对面部表情和言语的双峰情绪辨识进行了研究[3,4,10,18,24]。
1.2 相关工作
多模态融合的方法通常包括特征融合和决策融合。尽管特征融合可以最大限度地保留每个模态的信息,但由于特征维数大,存在多模态信息的同步问题和过拟合问题。在每个模态获得情绪识别结果后,使用决策融合来根据某种规则判断最终结果。与特征融合相比,决策融合具有灵活性和实时性。然而,由于该算法只能获得每个模态的结果,因此信息量和相对精度都不令人满意。在人脸表情和语音的双峰情绪识别中,以往大多数方法都集中在决策级融合方法上;很少使用特征级融合方法[22]。Poria 等人[31]提出了一种多模态信息提取代理,该代理在电子学习、电子健康、自动视频内容标记和人机交互等环境中推断和聚合与用户生成的多模态数据相关的语义和情感信息。Song 等人[35]提出了一种使用人工神经网络(ANN)或 k-最近邻(k-NN)算法的决策级融合方法,该方法将每个识别器的输出作为输入,并确认哪种特征组合实现了最高的精度。
解决特征级融合问题的一个简单方法是将面部特征和语音特征直接连接到高维特征载体上。为了处理面部表情图像和语音中的双峰情绪识别问题,人们提出了各种方法。Nguyen 等人[27]介绍了一种使用三维卷积神经网络对时空信息建模的新方法,该方法与可以表示音频和视频流的多模态深度信任网络(DBN)级联。Albanie 等人[1]开发了一个用于面部情绪识别的教师网络,并使用教师训练学生在没有标记音频数据的情况下学习语音情绪识别的表示。Avots 等人[4]使用 AlexNet 进行面部图像情感分类,使用 MFCC 进行语音表示,然后使用三个不同的数据库作为训练集(SAVEE、eNTERFACE’05 和 RML )和 AFEW 进行测试,完成跨语料库评估。Ghaleb 等人[10]提出了一种新的多模态时间深度网络框架,该框架将使用其视听内容的视频片段嵌入到度量空间中,在度量空间中缩小它们的差距,并探索它们的互补和补充信息。Li 等人[18]使用在 AffectNet 数据集上训练的 VGG16 网络和通过音频频谱图图像获得的低级描述符(LLD)作为 Bi-LSTM 的输入,以提高情绪识别性能。关于面部表情和言语的其他研究也可以在文献[7,12,13,38,41,44,46]中找到。
1.3 方法
上述方法的主要问题之一是面部和语音特征都可能包含不相关的情感信息。尽管言语和面部表情以不同的方式表达情绪状态,但它们表达的是同一个人的内心情绪状态,它们的情绪信息来源完全相同[45]。此外,由于用于训练神经网络的多模态数据量小,并且多模态融合的特征维数高,深度网络容易过拟合,并且非常依赖于人类的先验知识。因此,有必要引入注意力机制等策略,使网络自动关注本地有效信息[5,17]。因此,为了克服现有技术的局限性,引入了一种注意力机制来执行网络中的语音和面部特征融合任务以及时序建模任务。
2 方法原理
2.1 通过自注意实现特征融合
音频特征是 24 阶 MFCC [19]。音频采样频率为 16kHz ,帧长度为 64ms。为了确保音频序列的帧数与视频序列的帧数相等,帧移为 641,即音频采样率除以视频帧速率加1。
对于视频数据,ResNet18 [11]用于提取面部图像中包含的特征。该网络包含 17 个卷积层和 1 个完全连接层,以 64×64 的人脸图像作为输入。为了保持与音频特征的维度平衡,最终将面部图像编码为 128 维特征向量。这里,采用了一种新的特征融合方法,通过特征自注意机制来融合视频主特征矩阵和音频主特征矩阵,该机制可以自动学习融合权重,取代直接级联或加权求和。首先,以相同的间隔对每个特征矩阵进行下采样,并归一化为相同的时间长度 T 。对长度不足的数据采用零填充处理,然后拼接每个时刻对应的视频和音频的主要特征,得到融合特征矩阵 X 。其中,融合后的特征维数为 152 ;因此,X 是行高为 152 、列宽为 T 的矩阵。
将融合特征矩阵
X
X
X 输入到特征自注意机制模块(如图 1 所示),得到融合特征矩阵
X
′
X'
X′。这个过程使网络能够学习融合特征中更重要的维度并集中注意力。注意力机制可以描述为从查询矩阵到一系列键值矩阵的映射[37]。计算方法是首先计算查询矩阵与每个关键字之间的相关性,得到每个关键字对应值的权重系数,即注意力权重,用于对值进行加权和求和,然后得到注意力机制处理后的值。对于特征自注意机制模块,查询矩阵、关键字和值来自同一输入,即融合特征矩阵
X
X
X 和融合特征矩阵
X
′
X'
X′ ,经自注意机制处理如下:
X
′
=
S
o
f
t
m
a
x
(
X
X
T
d
k
)
X
(
1
)
X' = Softmax(\dfrac{XX^T}{\sqrt{d_k}})X \kern10em(1)
X′=Softmax(dkXXT)X(1)
自注意机制处理的 X’ 的维度与 X 的维度相同,其中
d
k
d_k
dk 是尺度,即特征维度,用于防止融合特征矩阵 X 与自身的乘积的结果过大。Softmax 是一个逻辑回归函数,用于对
X
X
T
XX^T
XXT 的每一行向量进行归一化。计算公式如下:
S
o
f
t
m
a
x
(
x
i
)
=
e
x
i
∑
c
=
1
C
e
x
c
(
2
)
Softmax(x_i)=\dfrac{e^{x_i}}{\displaystyle\sum_{c=1}^Ce^{x_c}}\kern10em(2)
Softmax(xi)=c=1∑Cexcexi(2)
其中,
x
i
x_i
xi 是输入向量的第 i 个节点,C 是节点数。Softmax 函数的输出被用作要与融合特征矩阵 X 相乘的权重矩阵,最后,在注意作为权重的情况下获得加权和 X’ 。
为了提高算法的鲁棒性,采用了多头并行处理策略。首先,将融合特征矩阵 X 映射到多个子空间(注意头机制),其中应用特征自注意机制。在注意力机制处理之后,结果被合并。由于输入样本的长度不均匀,较短样本的融合特征矩阵 X 在时间维度上具有部分零值,并且预先构建了掩模。因此,在处理这些零值时,可以直接忽略特征注意机制模块,以避免影响训练结果。
对于矩阵X’,可以进行时间序列建模,将其发送到分类器中,以获得情绪分类结果。
2.2 时序建模
为了对多模态样本和情绪信息之间的时间序列关系进行建模,构建了双向门控递归单元[8]。其结构包括更新门和重置门,更新门和重置门在时间 t 的输出如下:
z
t
=
σ
(
W
z
x
t
+
U
z
s
t
−
1
)
r
t
=
σ
(
W
t
x
t
+
U
t
s
t
−
1
)
(
3
)
z_t = \sigma(W_z x_t + U_z s_{t-1}) \kern10em \\ r_t = \sigma(W_t x_t + U_t s_{t-1} ) \kern10em (3)
zt=σ(Wzxt+Uzst−1)rt=σ(Wtxt+Utst−1)(3)
其中
x
t
x_t
xt 是输入向量,
z
t
z_t
zt 和
r
t
r_t
rt 表示在时间
t
t
t 更新门和重置门的输出。
s
s
s 是隐藏层的状态向量,
σ
σ
σ 是将结果映射到 [0,1] 范围的sigmoid 激活函数。更新公式
s
t
s_t
st 如下:
s
t
~
=
t
a
n
h
(
W
x
+
U
(
r
t
⨀
s
t
−
1
)
)
s
t
=
(
1
−
z
t
)
⨀
s
t
−
1
+
z
t
⨀
s
t
~
(
4
)
\widetilde{s_t} = tanh(W_x + U(r_t \bigodot s_{t-1})) \kern10em \\ s_t = (1-z_t) \bigodot s_{t-1} + z_t \bigodot \widetilde{s_t} \kern10em (4)
st
=tanh(Wx+U(rt⨀st−1))st=(1−zt)⨀st−1+zt⨀st
(4)
其中
s
t
~
\widetilde{s_t}
st
和
s
t
s_t
st 分别是在时间
t
t
t 更新之前和之后隐藏层的候选状态。这里,
r
t
⨀
s
t
−
1
r_t \bigodot s_{t−1}
rt⨀st−1表示最后一个隐藏层的状态向量被选择性地重置。
z
z
z 是范围为 [0,1] 的栅极控制信号。这里,两个门控递归单元叠加在一起,形成双向门控递归单元。在每一时刻,输入被同时提供给相反方向上的两个门控递归单元,并且输出由两个单向门控递归单元确定。
将融合特征矩阵
X
′
X'
X′输入到双向门控递归单元网络中,以获得
h
t
h_t
ht,
t
=
1
,
2
,
…
,
t
t=1,2,…,t
t=1,2,…,t的输出向量和最后一个隐藏层的状态向量
s
T
s_T
sT。每个 moment 的输出向量是通过维度设置为 128 的全连接层由当前 moment 的隐藏层向量获得的。由于门递归单元网络是双向的,所以输出向量
h
t
h_t
ht 和状态向量
s
T
s_T
sT 的维数是 256。然后,如图 2 所示,时间注意力机制模块用于计算最后一个隐藏层的状态向量
s
T
s_T
sT 与输出向量
h
t
h_t
ht 之间的注意力:
α
t
=
S
o
f
t
m
a
x
(
ν
T
t
a
n
h
(
W
s
s
T
+
W
h
h
t
)
)
,
(
5
)
\alpha_t=Softmax(\nu^T tanh(W_s s_T + W_h h_t)),\kern10em (5)
αt=Softmax(νTtanh(WssT+Whht)),(5)
其中,
ν
,
W
s
和
W
h
\nu,W_s 和 W_h
ν,Ws和Wh 是可训练的参数向量或矩阵,相关性
α
t
\alpha_t
αt 是输出向量
h
t
h_t
ht在时间
t
t
t的注意力权重。将输出向量与注意力权重
α
t
\alpha_t
αt相加,得到高级特征向量
c
c
c。
c
=
∑
t
=
1
T
α
t
h
t
=
α
1
h
1
+
.
.
.
+
α
T
h
T
.
(
6
)
c=\displaystyle\sum_{t=1}^T \alpha_t h_t = \alpha_1 h_1 + ... + \alpha_T h_T. \kern10em (6)
c=t=1∑Tαtht=α1h1+...+αThT.(6)
此时,256 维高级特征向量
c
c
c 已经通过特征维度和时间维度的注意力机制进行了处理,整合了多模态特征和上下文信息,并且对重要的特征维度和时刻具有更高的权重。
c
c
c 是全连接层的输入,以获得维度等于类别数量的输出向量
z
z
z。在使用 Softmax 函数将其映射到概率分布之后,计算其与样本的实际概率分布之间的交叉熵
L
L
L。
L
=
−
∑
i
=
1
K
R
i
e
Z
i
∑
k
=
1
K
e
Z
k
(
7
)
L = -\displaystyle\sum_{i=1}^K R_i \dfrac{e^{Z_i}}{\sum_{k=1}^K e^{Z_k}} \kern15em(7)
L=−i=1∑KRi∑k=1KeZkeZi(7)
其中, R i R_i Ri 是样本的实际概率分布, Z i Z_i Zi 是第 i i i 个输出神经元的值, Z k Z_k Zk 是第 k 个输出神经的值,k 是分类的数量。将具有已知真实标签的情感信息的音频和视频数据用作训练样本,并将交叉熵 L L L 用作整个神经网络中反向传播训练的损失函数。最后,得到了一个可以预测音频和视频样本情绪分类概率的神经网络模型。
3 实验
3.1 实验设置
在评估实验中,使用了两个广泛使用的多模态情绪数据库;其中一个被称为 eNTERFACE’05[25],由来自14个不同国家的42名受试者组成。每个受试者连续听六个唤起特定情绪的短篇故事,然后对每种情绪做出反应。该数据库总共包含1166个视频序列。第二个数据库是RAVDESS[21],其中包括24名专业演员(12名女性,12名男性)作为受试者。每一个主体都以两种方式表达各种情绪,即言语和歌唱。只有音频和视频数据用于实验。对于实验方案,使用五倍交叉验证计算识别准确性,情绪分类包括快乐、悲伤、愤怒、恐惧、惊讶和厌恶。
以 25 fps 的帧速率提取图像序列,并将其转换为灰度图像。然后,对所有提取的灰度图像帧执行面部检测和 68 个特征。对于定位处理得到的关键点,以 31 号关键点的鼻尖为中心,以 u 为边长,裁剪出人脸的正方形区域,归一化为 64×64 的大小和像素值范围[0,1],送入图像特征提取网络。u 的值计算如下。
u
=
m
i
n
{
0.6
×
(
x
r
i
g
h
t
−
x
l
e
f
t
)
m
i
n
(
x
c
e
n
t
e
r
,
w
i
d
t
h
−
x
c
e
n
t
e
r
)
m
i
n
(
y
c
e
n
t
e
r
,
h
e
i
g
h
t
−
y
c
e
n
t
e
r
)
(
8
)
u = min \begin{cases} 0.6 \times (x_{right} - x_{left}) \\ min(x_{center}, width - x_{center}) \\ min(y_{center}, height - y_{center}) \end{cases} \kern10em (8)
u=min⎩
⎨
⎧0.6×(xright−xleft)min(xcenter,width−xcenter)min(ycenter,height−ycenter)(8)
其中
x
r
i
g
h
t
x_{right}
xright 和
x
l
e
f
t
x_{left}
xleft 分别表示面部最左边的 1 号点和最右边的 17 号点的水平坐标。
x
c
e
n
t
e
r
x_{center}
xcenter 和
y
c
e
n
t
e
r
y_{center}
ycenter 分别表示中心点的水平坐标和垂直坐标。宽度和高度分别表示图像的帧宽度和帧高度。
将具有已知真实标签的情感信息的音频和视频数据用作训练样本,将交叉熵 L L L 用作整个神经网络中反向传播训练的损失函数,自适应矩估计算法[15]进行训练优化。每个参数的学习率通过梯度的一阶矩估计和二阶矩估计进行动态调整,其中自适应矩估计算法的权重衰减设置为 5 e − 5 5e^{−5} 5e−5,32 个样本作为小批量的输入。学习率初始化为 4 e − 3 4e^{−3} 4e−3。每 20 个迭代周期被衰减为具有 100 个时期的原始一半。
3.2 实验结果
为了验证所使用的特征融合策略的结果,在 eNTERFACE’05 和 RAVDESS 上使用基于本发明的非注意机制、特征注意机制、时间注意机制和特征时间注意机制的网络进行消融实验。选择识别准确度和平均 F1-score 作为评价指标,得到如图 3 所示的比较结果。观察到,所提出的特征-时间注意力机制方法对两个数据集都达到了最佳的识别效果,其中特征-注意力模块和时间-注意力模块在一定程度上提高了识别结果。与非注意力机制相比,特征注意力机制的识别准确率分别提高了 6.10% 和 5.58%,而时间注意力机制的准确率分别提升了 8.8% 和 8.46% 。最后,融合特征-时间-注意力后,识别准确率分别达到 12.27% 和 11.88% 。这两种算法在 F1 的平均得分上有相似的提高。
然后,将所提出的方法与一些最先进的(SOTA)方法进行比较,结果如表 1 和表 2 所示。显然,与 SOTA 结果相比,我们的工作在 RAVDESS 数据集上实现了 5.9% 的准确性提高。至于 eNTERFACE’05,Veni等人[38]通过加速鲁棒特征(SURF)和 Gabor 特征实现了当前的 SOTA 结果。基于手动特征的识别结果在 eNTERFACE’05 数据集中仍然非常流行,Poria等人[31]的工作也是如此。这可能是因为 eNTERFACE’05 的样本量使得其不足以训练神经网络。然而,随着数据集的不断改进,基于深度学习的方法仍将是常态。据我们所知,Zhang等人[13]在使用深度学习的作品中获得了 85.97% 的最佳准确率,与此相比,我们的作品提高了 2.14%。
为了避免由于数据集中各种情绪样本数量的不平衡导致识别率无法完全客观地评估模型的问题,在两个数据库上计算了每个情绪类别的精度、召回率和平均精度(AP),得到的结果如表 3 所示。在两个开放数据库中,我们的方法对每个情绪类别都实现了令人满意的识别精度,特别是对 RAVDESS 数据库,其中只有恐惧和幸福情绪相对较弱。至于 eNTERFACE’05 数据库,幸福和惊讶的情绪很难识别,尤其是幸福经常被错误地识别为厌恶。
这可以在根据结果计算的混淆矩阵中更清楚地看到(如图 4 所示)。一方面,这个问题可能是由于快乐情绪的训练样本数量较少;另一方面,由于神经网络训练过程的微妙性,快乐情绪和厌恶情绪在特征提取阶段可能会产生相似的特征向量,这使得分类器无法依靠有限的训练样本来正确区分这两种情绪。
4 总结
为了提高多模态情感识别的性能,建立了一种基于特征融合的技术体系结构。使用注意力机制的一种新应用,一方面作用于音频和视频特征矩阵的融合,另一方面作用于对时间信息不同维度的关注。进行消融实验以证明注意力机制在提高模型识别性能方面发挥着重要作用,并且我们的模型在基于 eNTERFACE’05 数据集和 RAVDESS 数据集的深度学习工作中取得了最佳结果。然而,由于用于训练的多模态情感数据集的规模较小,并且注释类别相对简单,因此距离多模态情感识别的实际应用仍有一定距离。因此,本课题值得在以下几个方面进一步探讨:
- 实验证明,注意力机制可以应用于特征融合阶段和时域信息建模阶段,有效地提高了识别精度。随着注意力机制在计算机视觉领域的应用越来越多,例如 transformer 在图像分类中的应用,未来的多模态情感识别任务也可以考虑将注意力机制直接应用于图像特征提取阶段,从而使整个模型放弃了卷积运算,并利用注意力机制来设计和提高模型的推理速度,使多模态情感识别能够实时应用。
- 实验是在两个可用的开放式多模态情感识别数据集上进行的。然而,该模型在实际应用中经常面临长尾分布的问题;也就是说,由于数据类别的不平衡,少数分类占了样本的大部分,而大多数类别只有少量样本。因此,可以改进训练过程或模型的损失函数的设计。例如,每个批次设置每类样本的比例,确保其在一个批次中相对平衡,并且可以引用检测任务中的焦点损失思想,这使得模型在实际数据的应用中更加稳健。
- 对于真实世界的应用程序,需要轻量级模型。因此,模型的复杂性需要进一步降低。根据特征,可以通过一些特征选择算法进行优化[42]。此外,修剪方法[43]在未来也值得研究。