阅读笔记Context Based Emotion Recognition using EMOTIC Dataset2020-03

Context Based Emotion Recognition usingEMOTIC Dataset

基于EMOTIC数据集的场景情绪识别

[PDF] Context Based Emotion Recognition Using EMOTIC Dataset | Semantic Scholar

https://github.com/rkosti/emotic

官网 Emotions in context

数据集需申请

1 Introduction

场景包括人周围的环境,如场所类别、场所属性、对象或在人周围发生的行为。

本文有两个贡献:

1)创建和发布了EMOTIC(场景中的情绪)数据集。EMOTIC数据库是一组根据人们的明显情绪状态进行标注的图像集合。

2)创建了一个基线系统,用于情境下的情绪识别任务。

2 Related Work

VAD模型和21种面部情绪类别(定义为基础情绪的不同组合,比如惊喜)。

[18] W. Mou, O. Celiktutan, and H. Gunes, “Group-level arousal and valence recognition in static images: Face, body and context,” in Automatic Face and Gesture Recognition (FG), 2015 11th IEEE International Conference and Workshops on, vol. 5. IEEE, 2015, pp.1–6.

28 [PDF] Finding Happiest Moments in a Social Context | Semantic Scholar

因此,[28]首次尝试使用上下文来预测人群中的幸福感。

3 EMOTIC Dataset

该数据集包含23,571张图像和34,320个被标注的人。

在第一轮注释之后(每幅图像有一个注释者),我们将图像分为三个集合:训练(70%)、验证(10%)和测试(20%),在不同的集合中保持相似的情感类别分布。之后,验证和测试分别由4个和2个额外的注释者进行注释。因此,Validation集中的图像由总共5个注释器进行注释,而Testing集中的图像由3个注释器进行注释(由于我们删除了有噪声的注释,这些数字对于某些图像可能略有变化)。

我们使用Validation中的注释来研究注释在不同注释器之间的一致性。这项研究见第3.3节。EMOTIC数据集的数据统计和算法分析分别在3.4节和3.5节中详细介绍

3.1 Emotion representatio

EMOTIC数据集结合了两种不同类型的情绪表示:

连续维度:根据VAD模型对图像进行标注,该模型通过三个连续维度的组合来表示情绪:效价(Valence)、唤起(Arousal)和支配(Dominance),每个维度都接受一个范围为[1 - 10]的整数值。图4显示了被给定维度的不同值标注的人的例子。

 情感类别:除了VAD之外,我们还建立了一个26种情感类别的列表,代表各种情绪状态。表1列出了26种情感类别及其对应的定义。

 3.2 Collecting Annotations

我们利用Amazon Mechanical Turk (AMT)众包平台收集EMOTIC数据集的注释。

3.3 Agreement Level Among Different Annotators不同注释者之间的一致性水平

该部分介绍如何从不同人的标签中计算得出每个图像的最终情感类别。

3.4 Dataset Statistics

EMOTIC数据集包含34 320人,其中66%为男性,34%为女性。其中有10%的儿童,7%的青少年和83%的成年人

关于EMOTIC数据集的一个重要评论是,有些人的脸是不可见的。在EMOTIC中,超过25%的人的面部被部分遮挡或分辨率很低,所以我们不能依靠面部表情分析来识别他们的情绪状态。

3.5 Algorithmic Scene Context Analysis 算法场景上下文分析

上图显示了EMOTIC数据集样本图像的Places和ANP输出。

我们使用AlexNet Places CNN[37]来预测EMOTIC中图像的场景类别和场景属性。

4 CNN model for emotion recognition in scene context 场景背景下的CNN情感识别模型

第一个模块以整个图像为输入,生成与场景相关的特征。

第二个模块获取人的可见身体,并生成与身体相关的特征。

最后,第三个模块结合这些特性,对两种类型的情绪表示进行细粒度回归

人体特征提取模块以目标人身体的可见部分为输入,生成与人体相关的特征。这些特征包括重要的线索,如脸和头的方面,姿势或身体外观。为了捕捉这些方面,这个模块是用ImageNet进行预训练的,这是一个以对象为中心的数据集,其中包括类别人员。

图像特征提取模块以整个图像为输入,生成场景-上下文特征。这些特征可以被解释为场景类别、场景中呈现的属性和对象,或者场景中其他人之间的动态。为了捕获这些方面,我们使用以场景为中心的Places数据集对该模块进行预训练。

融合模块结合两个特征提取模块的特征,对离散的情感类别和连续的情感维度进行估计。

这两个特征提取模块都是基于[41]中提出的一维滤波CNN。这些CNN网络在参数较少的情况下提供了有竞争力的性能。

41 DecomposeMe: Simplifying ConvNets for End-to-End Learning | Papers With Code

 每个网络由16个卷积层组成,其中1维核在水平和垂直方向上交替,使用2维核有效地建模8层。然后,为了保持图像不同部分的位置,我们使用全局平均池化层来减少最后一个卷积层的特征。为了避免内部协变移位,我们在每个卷积层和整流线性单元后增加一个批量归一化层[42],以加快训练速度。

融合网络模块由两个FC层组成。第一个FC层用于将特征的维数降至256然后,第二层全连接层用于学习每个任务的独立表示。第二层有两个输出,一个是有26个单位代表离散的情绪类别,另一个是用3个单元表示的3个连续的维度。

4.1损失函数和训练设置

我们将损失函数定义为两个独立损失的加权组合。

 Criterion for Discrete categories (Ldisc)离散分类标准:离散类别估计是一种多标签问题,由于每个类别的训练样本数量不相同,因此具有内在的类别不平衡问题,所以采用加权欧几里德损失,

其中:

 pi是第i类的概率,C是一个参数,用于控制wi的有效值范围。使用这种加权方案,当类别的实例数趋于0时,wi的值是有界的。

 Criterion for Continuous dimensions (Lcont),连续分类标准:

连续维的边际欧几里得损失定义为:

 

Smooth L1损耗定义如下:(Smooth L1 loss是指如果误差小于一个阈值(在我们的实验中设置为1),使用平方误差的绝对误差。)

 

 5 实验

我们训练了我们的CNN模型的四个不同的实例,它们是4.1节中描述的两种不同的输入类型和两种不同的连续损失函数的组合。输入类型为body(即图13中的上分支),用B表示;body + image(即图13中的两个分支),用B+I表示。连续损耗类型在实验中用L2表示欧几里德损耗(方程2),SL1表示Smooth L1(方程3)。

离散维结果:每类别平均精度(Average Precision per category)

连续维结果:每维平均绝对误差(Average Absolute Error per dimension, AAE)

5.1背景特性对比

If:通过对带有EMOTIC数据库的AlexNet Places CNN进行微调获得,并以卷积最后一层的平均池为特征;

Is:是由[39]实现的ANP检测器的情感评分组成的特征向量。

Is效果比If好。

6 总结

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值