ACM MM 2021 | 面向多模态情绪识别的双流异质图递归神经网络

最新推荐文章于 2023-07-13 15:21:18 发布

PaperWeekly

最新推荐文章于 2023-07-13 15:21:18 发布

阅读量2k

点赞数 2

文章标签：机器学习人工智能深度学习 python 计算机视觉

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/121199911

版权

本文介绍了ACM MM 2021上的一篇Oral论文，提出HetEmotionNet模型，通过双流异质图递归神经网络实现多模态情绪识别的高精度分类。该模型解决了如何有效利用多模态生理信号的时频空域互补性、异质性和相关性的挑战，取得了优于现有SOTA模型的性能。

摘要由CSDN通过智能技术生成

本文介绍一篇于 ACM MM 2021 上发表，备受关注的 Oral 论文《HetEmotionNet: Two-Stream Heterogeneous Graph Recurrent Neural Network for Multi-modal Emotion Recognition》，该论文以多模态情感数据的高精度分类为研究目标，提出了一种双流异质图递归神经网络进行多模态情绪数据的分类。

尽管现有方法能够达到较高的分类表现，但是如何充分利用多模态生理时间序列的时-频-空域特征互补性、异质性和相关性进行情感识别仍然具有挑战。该论文提出了一种新颖的异质图神经网络 HetEmotionNet，在统一的框架下同时建模了多模态数据的特征互补性、相关性和异质性。HetEmotionNet 在两个真实世界数据中与现有的 SOTA 模型相比较实现了最佳的性能。

原文地址：

https://arxiv.org/abs/2108.03354

论文源码：

https://github.com/ziyujia/HetEmotionNet

作者主页：

https://ziyujia.github.io/

PPT文件：

https://ziyujia.github.io/slides/HetEmotionNet_slides.pdf

研究背景

情绪是由思维感觉和行为表现组成的生理和心理的状态。提到情绪识别，人们的第一反应是通过图像、文本、声音等形式进行识别，一般不会想到利用生理信号。尽管图像、文本、声音数据比较容易收集，也能够达到不错的效果，但人的面部表情和声音容易被伪装、掩盖，不一定能反映真实情感。基于生理信号的情绪识别可以避免此类情况，生理信号是人生理情况的客观反应，不容易被伪装。此外，多模态的生理信号也是未来发展的趋势。

研究动机

基于生理信号的情绪识别在情感计算中起着重要的作用，但现有的工作仍存在下面几个问题：

1. 如何有效的利用时频空域信息的互补性。生理信号空间域中的时域信息和频域信息通常具有不同的激活程度。例如，图 1 显示了不同情绪状态下 EEG 信号在空间域中时域和频域特征的差异。例如，在时空域中，时域信息的激活程度直接反映了大脑的活动。高激活度通常与积极情绪有关，低激活度通常与消极情绪有关。在频空域中，