Emotion Recognition in context 情景中的情绪的感知

本论文作者为加泰罗尼亚大学、OSIRO和MIT共同完成的关于情境中情感认知的研究。

摘要

在日常生活中,我们每天都可以通过他人的面部表情来推断这个人今天经历了什么,他的心情是什么样的。如果机器也可以通过人类认识方式来了解他人的情感信息,那将对我们的生活有着更好的影响。然后,当前还没有一个系统可以完成这样的工作。先前关于计算机视觉的研究主要致力于分析面部表情,分为六类基本情感。然而,环境在人类情感认知方面也是有着很重要的决定因素。作者提出了一种“情景情感数据库”EMOTIC,这是一种非受控环境中包含人景的图像数据集。在这些数据集中,将人们的感情分为26类,带有continuous dimensions valence, arousal and dominace. 使用该数据集,作者训练卷积神经网络来联合的分析人以及整个情境下对情感状态的认知信息,以此表明情景在人类情感认知方面的重要性。

引言

理解一个人的情感在社会交际中起到很重要的作用。
在这里插入图片描述
在这里插入图片描述
情景对情绪的感知有着重要的作用,图中,小男孩面露渴望,从情景中可以看出,女孩可以吃巧克力,而男孩只能吃面前的苹果,所以他露出了强烈的渴望情绪。情景中苹果,巧克力,女孩这些线索就成了分析得到男孩面部表情含义的必要因素。同时,如果看不到一个人的表情的时候,我们也可以通过这个人所处的情景推断出他的情绪。
在这里插入图片描述
1
上面两个图片我们看不到红色框内人物的表情,但是根据他们所处的情景,可以推断出,peace and happy。
这篇论文主要强调研究的就是 情景对人物情绪感知的作用。
通过建模仿真得出两个结论:情景对情感感知有作用,第二,结合categories and continuous dimensions 训练卷积神经网络会产生一个更加鲁棒的系统。

相关工作

大多数计算机视觉的研究致力于面部表情分析,两位著名心理学家艾克曼和富利森开发了各种各样的情绪认知方法对六种基本的情绪进行研究。其中一种是基于面部动作解码系统来实现的。这种系统使用一系列特殊面部动作 (动作单元)来解码面部表情。这些动作单元一般由几何图形或者(and/or)从面部图片提取的外貌特征来确定。同时也有使用一种** VAD情绪状态模型来研究情感认知分类。valence代表从消极到积极的度;arousal代表一种行为的激活程度,从不行动状态到非常想或者时刻准备好行动的状态。dominance代表受控程度,范围从被控状态到领导指挥状态。同时,21种情绪分类可能是基本情绪的组合,这样分类更加仔细。也有研究使用身体语言(姿势)**来解释或感知人物情绪。包括肩膀的位置等等除去面部表情来感知人物情绪。

情景数据库中的情绪

数据库中的图片来自MSCOCO Ade20k 以及谷歌下载图片,包括18316个图片和23788位带注释的人物。数据库结合了两种不同的情绪表示方法–如图中所示:离散分类—26种情绪分类表示方法图二,
图二
连续维度下分类----VAD情绪状态模型,该模型标定范围为1-10 图三,
图三
为了定义提出来的情绪分类方法,论文使用大概四百个来自字典、情绪书籍的词汇来形容情绪表达。也就是说最终将这400个词汇分别归为26类,分类规则包括:第一 不相交性,第二,视觉可分性。

  • 1 Peace: well being and relaxed; no worry; having positive thoughts or sensations; satisfied
  • 2 Affection: fond feelings; love; tenderness
  • 3 Esteem: feelings of favorable opinion or judgment; respect; admiration;gratefulness
  • 4 Anticipation: state of looking forward; hoping on or getting prepared for possible future events
  • 5 Engagement: paying attention to something; absorbed into something;curious; interested
  • 6 Confidence: feeling of being certain; conviction that an outcome will be favorable; encouraged; proud
  • 7 Happiness: feeling delighted; feeling enjoyment or amusement
  • 8 Pleasure: feeling of delight in the senses
  • 9 Excitement: feeling enthusiasm; stimulated; energetic
  • 10 Surprise: sudden discovery of something unexpected
  • 11 Sympathy: state of sharing others emotions, goals or troubles; supportive;compassionate
  • 12 Doubt/Confusion: difficulty to understand or decide; thinking about different options
  • 13 Disconnection: feeling not interested in the main event of the surrounding; indifferent; bored; distracted
  • 14 Fatigue: weariness; tiredness; sleepy
  • 15 Embarrassment: feeling ashamed or guilty
  • 16 Yearning: strong desire to have something; jealous; envious; lust
  • 17 Disapproval: feeling that something is wrong or reprehensible; contempt; hostile
  • 18 Aversion: feeling disgust, dislike, repulsion; feeling hate
  • 19 Annoyance: bothered by something or someone; irritated; impatient; frustrated
  • 20 Anger: intense displeasure or rage; furious; resentful
  • 21 Sensitivity: feeling of being physically or emotionally wounded; feeling delicate or vulnerable
  • 22 Sadness: feeling unhappy, sorrow, disappointed, or discouraged
  • 23 Disquietment: nervous; worried; upset; anxious; tense; pressured; alarmed
  • 24 Fear: feeling suspicious or afraid of danger, threat, evil or pain; horror
  • 25 Pain: physical suffering
  • 26 Suffering: psychological or emotional pain; distressed; anguished

图像注释

作者设计了一种AMT接口依据所提出的分类法来给情绪做标注,同时对性别,年龄范围作出标注。作者从两方面保证标注质量,第一,分类工作者需要通过一个资格任务,第二, 每18个图片中增加两个控制图片来监视分类工作的表现。最终将这个数据集的70%用来训练,10%用来校验,20%用来测试。其中,测试集由三名不同人员进行标注,以此核验不同人标注的一致性。
特别说明,一个人选择分类结果与另外两人分类结果一致的概率为23.97%(这个概率怎么来的呢),同时我们也计算了fleiss’ kappa值(一致性校验)为0.27,50%以上的图片的K>0.33。这个统计结果表明分类合理的一致程度(如果是随机分类,kappa的值是0)。
对于连续维度下的分类情况,不同人员分类结果的标准差在valence下是1.41,在arousal 下是0.70, 在dominance下是2.12;表明人员在dominance下的分类结果差异性较大,差异在平均值±2周围。

数据集统计

对于23788位被标注人像中,66%是男性,34%为女性,11%为孩子,11%为青年,78%为成年人,
图4
图五是26种情绪中每一种情绪的连续维度的得分分布。
图5
分析图5结果是说的通的,valence 积极程度,痛苦下积极程度必然最低,当自信时,积极程度最高。图中分类结果也是符合我们的常识的。在此强调,随机选取了300个图片,其中看不到人面部表情的大约占25%,还有很多人像面部部分遮挡,因此,要完全估计出每个人的情绪是一个较大的挑战。

提出CNN模型

图六
作者提出了端到端的模型,同时估计离散分类结果和连续维度分类结果,结构有三个模块组成:两个特征提取模块一个融合模块。第一个模块提取人物情绪特征及相关特征,第二个模块从整个图片中提取全局特征。第三个模块以前两个模块提取出的特征为输入,通过融合网络处理,估算出两类分类结果。三个模块的参数联合学习所得。每个特征提取模型由低阶滤波卷积神经网络构成,该网络的优势是可以在参数个数和计算复杂度较低的情况下,提供高精确度。原网络结构由16个一维单核卷积层组成,有效的建立8层二维核卷积层。两个模块提取出来的特征与单独的融合网络结合,该融合模块首先在每个特征映射上使用一个全局平均池化层来减少特征的数量,然后,第一个完全连接的层作为连接池化特征集的降维层。这一层的输出是一个256维的向量。随后,作者纳入一个大的完全连接层,以使培训学习每个任务能独立表示。这一层分为两个支路,一支为连续维度,另一支为离散分类。在每一个卷积层之后都添加了批处理归一化整流线性单元。三个模块的参数由动量随机梯度下降法进行联合学习。
批量处理大小设置为离散分类种类数的两倍,即26*2=52,每个类别通过均匀抽样,使每个批处理中的每个离散类别至少有一个实例。
学习模型的总损耗定义如下:
L c o m b = λ d i s c L d i s c + λ c o n t L c o n t L _ {comb} = \lambda_{disc}L_{disc}+\lambda_{cont}L_{cont} Lcomb=λdiscLdisc+λcontLcont
其中
加权欧几里得损失
N N N是分类数。 y ^ i d i s c \hat{y}_{i}^{disc} y^idisc是第 i i i个分类的估计输出, y i d i s c y_i^{disc} yidisc是地面真实标签。 w i w_i wi是每种分类的权值。权值表达如下: w i = 1 ln ⁡ ( c + p i ) w_i=\frac{1}{\ln(c+p_i)} wi=ln(c+pi)1,其中 p i p_i pi是第 i i i种分类的概率, c c c是权值控制范围。
在这里插入图片描述
其中 C = { V a l e n c e , A r o u s a l , D o m i n a n c e } C={\{Valence, Arousal, Dominance\}} C={Valence,Arousal,Dominance}
v k = 0 , i f ∣ y ^ k c o n t − y k c o n t ∣ &lt; θ v_k = 0, if \left | \hat{y}_k^{cont}-y_k^{cont}\right |&lt;\theta vk=0,ify^kcontykcont<θ
否则: v k = 1 v_k=1 vk=1

实验与讨论

实验训练了不同配置下的卷积神经网络模型,结果显示,除了esteem(尊敬)类,使用人物结合背景为输入的模型效果最好, 说明图片背景能够给人物情绪感知提供必要的信息,但单靠背景信息还不能对人物情绪感知作出完整的推断。
在这里插入图片描述
在这里插入图片描述
图八对文中提出的联合模型进行了另一种评价,通过验证集,计算识别结果的杰卡德(jaccard)系数
图8
结果显示,所提出的感知模型能结合情景很好的给出人物情绪分类,尤其在人物面部无法识别的情况下,效果甚好。

结论

本文主要谈论情境下情感状态识别问题,首先提出情景情感数据集,并采用两种方法对数据集进行分类,同时提出CNN模型进行估算识别,结果证明了方法的有效性。

  • 4
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值