本文介绍一篇于 ACM MM 2021 上发表,备受关注的 Oral 论文《HetEmotionNet: Two-Stream Heterogeneous Graph Recurrent Neural Network for Multi-modal Emotion Recognition》,该论文以多模态情感数据的高精度分类为研究目标,提出了一种双流异质图递归神经网络进行多模态情绪数据的分类。
尽管现有方法能够达到较高的分类表现,但是如何充分利用多模态生理时间序列的时-频-空域特征互补性、异质性和相关性进行情感识别仍然具有挑战。该论文提出了一种新颖的异质图神经网络 HetEmotionNet,在统一的框架下同时建模了多模态数据的特征互补性、相关性和异质性。HetEmotionNet 在两个真实世界数据中与现有的 SOTA 模型相比较实现了最佳的性能。
原文地址:
https://arxiv.org/abs/2108.03354
论文源码:
https://github.com/ziyujia/HetEmotionNet
作者主页:
https://ziyujia.github.io/
PPT文件:
https://ziyujia.github.io/slides/HetEmotionNet_slides.pdf
研究背景
情绪是由思维感觉和行为表现组成的生理和心理的状态。提到情绪识别,人们的第一反应是通过图像、文本、声音等形式进行识别,一般不会想到利用生理信号。尽管图像、文本、声音数据比较容易收集,也能够达到不错的效果,但人的面部表情和声音容易被伪装、掩盖,不一定能反映真实情感。基于生理信号的情绪识别可以避免此类情况,生理信号是人生理情况的客观反应,不容易被伪装。此外,多模态的生理信号也是未来发展的趋势。
研究动机
基于生理信号的情绪识别在情感计算中起着重要的作用,但现有的工作仍存在下面几个问题:
1. 如何有效的利用时频空域信息的互补性。生理信号空间域中的时域信息和频域信息通常具有不同的激活程度。例如,图 1 显示了不同情绪状态下 EEG 信号在空间域中时域和频域特征的差异。例如,在时空域中,时域信息的激活程度直接反映了大脑的活动。高激活度通常与积极情绪有关,低激活度通常与消极情绪有关。在频空域中,