Hierarchical Attention-Based Multimodal Fusion Network for Video Emotion Recognition

Hierarchical Attention-Based Multimodal Fusion Network for Video Emotion Recognition

基于层次注意的视频情感识别多模态融合网络

摘要

1、场景和对象等上下文信息在视频情感识别中起着重要作用。当加入上下文信息时,情感识别的准确率可以进一步提高。虽然之前的研究已经考虑了上下文信息,但不同图像中包含的情感线索可能不同,这往往被忽略。

2、为了解决不同模态不同图像之间的情感差异问题,本文提出了一种基于分层注意的多模态融合网络用于视频情感识别,该网络由多模态特征提取模块多模态特征融合模块组成。

3、多模态特征提取模块有三个子网络,分别用于提取人脸、场景和全局图像的特征。每个子网络由两个分支组成,其中第一个分支提取不同模态的特征,另一个分支为每个图像生成情感分数(局部注意力网络:用于为模态方法的每个图像生成情感分数。将模态中所有图像的特征和情感分数进行聚合,生成模态的情感特征。

4、另一个模块将多模态特征作为输入,并为每个模态生成情感分数(全局注意力网络:用于生成不同模态的情绪分数。最后,将多个模的特征和情感分数进行聚合,生成视频的最终情感表示。然后,视频的最终情感表示通过一个完全连接的小型网络,并由softmax loss监控5、实验结果表明,该方法在情识别数据集上是有效的。

 

任务、对象: 视频情感识别基于分层注意的多模态融合网络

问题:为了解决不同模态和不同图像之间的情感差异问题

方法:提出了一种基于分层注意的多模态融合网络用于视频情感识别,该网络由多模态特征提取模块和多模态特征融合模块组成。

贡献:我们构建了一个MHED数据集,主要研究多模态融合在野外视频情感识别中的应用。其次,局部注意网络解决了视频帧的情感差异问题,全局注意网络解决了不同模态的情感差异问题。

背景介绍 

虽然视频情感识别的研究已经取得了很大的进展,但仍然存在两大挑战

  1. 场景的复杂性

比如摄像机角度和距离的不同,视频中人的姿势和清晰度会有所不同,从而导致情感辨别的差异。

如:在图1(a)中,由于两幅图像的视角不同,情感辨别是不同的。右侧图像的情绪类别很容易识别为愤怒,左侧图像的情绪类别很难识别。

在图1(b)中,两幅图像的角度相似。然而,由于清晰度的差异,右图可以比左图获得更多的情感线索。与人脸相似,上下文信息之间也存在情感差异(如图2所示)。因此,如何充分利用不同图像的情感线索是视频情感识别的一个重大挑战。

 

(2)视频中不同的情感表达方式存在差异不同的模态在不同的视频中包含不同数量的情感信息。例如,一些视频包含更多的人类图像和更少的上下文图像。同时,人类的面部具有丰富的情感表达,如图2(e)中的图像序列,在这种情况下,我们主要使用面部表情来识别视频的情感类别,而上下文信息仅用作少数情感辅助线索。还有一些视频通过场景表达丰富的情感线索如图2(d)视频情感类别主要由场景识别。因此,在基于多模态特征融合的视频情感特征表示中,如何有效地解决视频中不同模态情感表达的差异是视频情感识别面临的一个重大挑战。

MHED 数据集

MHED数据集是根据我们从网上手动下载的视频构建的,主要关注视频中的人类情感。著名心理学家Ekman和Friesen[11]认为有六种情绪类型,包括“愤怒”、“厌恶”、“恐惧”、“喜悦”、“悲伤”和“惊讶”。

该数据集共包含1066个视频,每个视频都有一个带注释的人。训练视频为638,测试视频为428。训练集和测试集之间没有重叠。

图2显示了MHED数据集中每个情感类别的示例帧。

 

数据集注释。MHED数据集由16名注释员手动注释。表1显示了注释者的性别和年龄分布。

 

为了确保注释的质量,注释者首先需要学习心理学家Ekman和Friesen给出的情感类别的定义。在学习和实践之后,注释员被要求注释我们的MHED数据集。

3.2. 数据库统计。在1066个注释视频中,37.15%为男性,62.85%为女性。他们的年龄分布如下:5.9%的儿童、6.47%的青少年和87.63%的成年人。该数据集每个类别至少有137个视频,平均持续时间为15.76秒。表2总结了更多细节。

 基于分层注意的多模融合网络(HAMF)Hierarchical Attention-Based Multimodal

4.1. 基于层次注意的多模融合网络框架。包括场景、身体、姿势和周围环境在内的上下文信息也可以提供不同的情感信息,这有助于提高情感识别的准确性。然而,正如第1节所讨论的,在不同图像和不同模式的融合中存在一个明显的问题。为了解决这个问题,我们提出了一个基于分层注意的多模式融合网络,如图3所示,使我们能够对不同图像和模式的融合进行建模。

 

HAMF由两个基于注意力的模块组成

第一个模块是多模态特征提取模块用于生成每个模态的情感特征。它有三个CNN子网,每个子网由两个分支组成。

第一个CNN网络的第一个分支将图像作为输入,提取场景特征周围环境提供支持

第二个CNN网络的第一个分支将人脸图像作为输入,并提取人脸特征人类感知提供支持

第三个CNN网络的第一个分支将全局图像作为输入,提取全局上下文特征,例如身体和姿势,上下文提供支持

场景CNN和图像CNN使用相同的输入,但它们使用不同的网络并生成不同的特征。

三个子网络的另一个分支将人脸、场景和全局特征的中间表示作为输入,并为每个图像生成情感分数。这个分支被称为局部注意网络,因为它用于为模态方法的每个图像生成情感分数。这是为了区分用于为不同模式生成情绪分数的全球注意网络。然后,将每个模态的情感分数和图像特征进行聚合,生成每个模态的特征。

另一个模块是多模态特征融合模块用于融合多模态特征并生成视频的情感表示。每个模式的特征都会通过一个全球注意力网络,并为每个模式生成一个情绪分数。将多个模式的特征及其情绪分数进行聚合,并生成视频的最终情绪表示。它将通过一个小型完全连接的网络,并由softmax loss监控。

实验 

层次注意机制的可视化。

 

图5显示了图4中图像序列的不同模式的情绪分数。

 

与最先进的方法进行比较。

 

表8所示,我们基于分层注意力的多模式融合网络在MHED上实现了3.27%的top-1性能增益。

在Ekman-6和VideoMootion-8上的结果。

 

我们的方法在Ekman-6和VideoEmotion-8数据集上都取得了最先进的结果。这是因为我们的方法解决了不同模式和图像之间情感差异的问题。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值