Science Advances:测试、解释和探索情绪的面部表情模型

导读

模型是成熟科学探索的标志。在心理学中,这种成熟是通过一个普遍的问题来实现的:什么样的模型最能代表情绪面部表情?一些假说提出了不同的面部动作组合[动作单元(AUs)],以最好地代表跨文化的六种基本情绪和四种会话信号。本研究开发了一个新的框架,将这样的假设形式化为预测模型,比较其在西方和东亚文化中预测人类情绪分类的能力,解释单个AUs的因果作用,并探索更新的、以文化为重点的模型。本研究的预测模型还提供了一个噪声上限,以了解不用因素(如AUs和个体差异)的解释力和限制。因此,本研究的框架提供了一种新的方法来测试社会信号模型,解释其预测能力,并探索其优化,这对理论的发展具有直接影响。

前言

在成熟的科学研究中,模型以三种互补的方式来促进知识的发展:通过预测一种现象,解释其原因,并利用从这些解释中获得的理解,探索该现象的改进模型。心理学领域提供了一个强有力的例证,以解释人类核心行为模型的发展:从面部表情识别情绪。自从达尔文对面部表情的进化起源做出了开创性的工作以来,人们已经提出了其他几种面部表情模型,以更准确地表示六种经典的基本情绪:愤怒、厌恶、恐惧、快乐、悲伤和惊讶。研究人员经常使用一种著名的人类面部动作分类方法——面部动作编码系统(FACS)——根据面部“动作单元”(AUs)描述面部的活动。然后,基本情绪模型变成了关于哪些AU组合代表每个类别的假设。例如,Ekman和Friesen将愤怒的面部表情描述为眉毛下拉(AU4)、上眼睑升高(AU5)、眼睑收紧(AU7)和嘴唇收紧(AU23),而Cordar及其同事将相同的面部表情描述为仅包括眉毛下拉(AU4)和眼睑收紧(AU7)。因此,在这里,模型将构成面部表情的AUs(例如,AU4、AU5、AU7和AU23)作为输入,并据此预测相关情绪类别作为输出(例如,“愤怒”)。

寻找具有代表性的面部表情模型是一项长期的努力,并且已经产生了许多相互竞争的模型。然而,这些模型通常是关于AUs与情绪关系的定性描述性假设,因此难以定量评估和比较。使用“假设核分析”这一新技术,本研究旨在通过将此类定性假设转化为正式的模型来改进这些定性假设,从而对给定面部表情相关的情绪进行定量预测。本研究进一步提出了一个新的预测-解释-探索框架(见图1)。该框架提供了一种原则性和一般方法来评估、比较和改进预测模型的(包括情绪的面部表情模型)预测性能和局限性。

图1.预测-解释-探索框架。

该框架量化了不同模型预测人类情绪分类的能力,通过识别对分类性能至关重要的特定AUs来解释其预测,并使用这些信息来探索更新的基于AU的模型,以提高性能。在这里,本研究使用该框架系统地比较和定量评估了六个有影响力的基于AU的六种经典基本情绪的面部表情模型和一个数据驱动模型。本研究扩展了西方(WE)和东亚(EA)文化之间的比较和评估,以构建改进的、具有文化意识的模型。为了突出这种方法的稳健性,本研究进一步将该框架从基本的六种情绪扩展到四种对话信号模型。

预测-解释-探索框架

图1说明了这个新框架,它概述了如何在预测、解释和探索这三个阶段评估、解释和优化模型。首先,预测阶段生成模型预测(此处为情绪分类),并将这些预测与人类对相同数据的分类进行比较,从而生成模型性能分数,该分数总结了模型预测与人类分类的一致性。在解释阶段,系统地操纵模型的构成要素(此处为单个面部动作-AUs),以评估它们对行为预测的因果效应以及它们如何影响模型分类性能。在探索阶段,从解释阶段估计的因果效应被用于自动构建包含新假设的更新和改进的模型(这里,关于代表六种情绪中每一种的特定AUs,包括特定文化特征)。这些新的、优化的模型得益于从整个模型比较中获得的见解,从而有效地结合了它们的相对优势。

预测模型的一个明显优势是,它们可以将人类分类行为中的方差分解为三个不同的组成部分(见图2),从而深入了解模型的局限性。第一个部分是解释方差(用橙色表示)——这里是面部表情模型正确预测的人类分类行为的方差比例。另外两个部分由模型的噪声上限决定,该上限将剩余的方差细分为未解释方差(以绿色表示)和个体差异(以红色表示),这些差异来自于个体对相同面部表情的不同分类。因此,噪声上限强调了这样一个概念,即根据定义,单个“通用”模型无法解释个体之间分类行为的变化,这代表了任何忽略这些个体差异的模型的最大性能。本文使用噪声上限来提供这种基于AU的固定面部表情模型的性能上限。

图2.情绪分类的方差划分。

为了将预测-解释-探索框架应用于六种经典情绪模型,本研究使用一种新的方法将其描述性假设转化为预测模型。然后,在预测-解释-探索框架内对这些预测模型进行了定量评估、比较和优化。

基于预测-解释-探索框架的人类情绪面部表情分类建模

使用预测-解释-探索框架,对六种经典情绪的七个有影响力的面部表情模型进行了测试。本研究选择这些模型是基于它们对与六种经典情绪相关的特定AUs的明确假设。本研究根据框架的三个主要阶段预览结果。

预测

本研究使用每个参与者2400个情绪分类试次的大型数据集,评估了七个模型如何预测每种基本情绪类别。每个试次包含一个由动态AUs的随机组合组成的未知生成的面部动画。要求60名WE参与者和60名EA参与者将每个面部动画视频分类为六种经典情绪之一:“快乐”、“惊讶”、“恐惧”、“厌恶”、“愤怒”或“悲伤”,只有当他们认为面部动画代表了其中一种情绪时才进行分类,否则选择“不知道”。本研究使用相同的试次来预测每个模型最相似的情绪类别,以评估它预测人类情绪分类行为的效果。本研究发现,所有七个模型都解释了人类行为大部分变化,尽管都低于噪音上限,这表明每个模型都可以进一步优化,以更好地拟合人类行为。此外,模型在WE参与者中的表现优于EA参与者,这表明他们倾向于情绪面部表情的WE表达,并且缺乏EA文化的重要特征。

解释

接下来,为了解释每个模型中的单个AU如何影响情绪分类性能,本研究使用了一个“AU消融”程序,该程序系统地从每个模型中删除单个AUs,并分别对WE和EA文化重新计算其对人类行为的预测,该程序确定了一组特定于文化的性能关键型AUs,当去除这些AUs时,会降低模型的预测性能。该程序还确定了一组特定于文化的性能不利型AUs,在去除这些AUs时,可以提高模型的预测性能。换句话说,对性能不利的AUs阻碍了对其他五种情绪的准确分类。

探索

最后,为了探索解释性能的因果AUs是否确实改善了预测,本研究在原始模型中添加了性能关键型AUs,并分别针对WE和EA文化删除了性能不利型AUs,从而生成更新、优化和特定于文化的模型。本研究发现,与原始模型相比,它们对新刺激和参与者的预测性能(即预测和解释阶段未使用的数据)有了显著提高,并消除了之前报告的WE偏差。然而,AU增强模型的性能仍然低于噪声上限,这表明模型可以通过改进其AU表征或添加其他与表达相关的特征(例如,频率)来改进。此外,由于个体差异而产生的大量方差表明,模型可以受益于文化之外的其他与感知者相关的特征,例如性别或年龄。

对其他情绪的概括

由于六种基本情绪只是面部可以表达的心理状态的子集,本研究将该框架扩展到基于AU模型选择的四种会话信号(“无聊”、“困惑”、“感兴趣”和“思考”)。传达和推断这些心理状态对有效沟通至关重要,尤其是在对话环境中。本研究确定了五项描述面部运动的研究,将其编码为AU组合,并使用假设核分析方法将其转换为预测模型。使用来自40名参与者(20WE和20EA)的2400个会话信号分类数据集,使用预测-解释-探索框架来评估和优化会话信号模型,就像对基本情绪模型所做的那样。本研究发现,大多数模型都能准确地预测人类分类,但对WE表征具有类似的偏倚。与基本情绪模型一样,优化和文化感知模型显著提高了预测性能(仍低于噪声上限),并且减少了WE偏差。总之,这些结果复制了本研究对基本情绪的发现,并证明了该方法可以推广到其他心理状态。

假设核分析

为了将AUs和情绪类别之间的统计关系形式化为预测模型,本研究提出了一种称之为假设核分析的新方法。使用该方法来推导出分类模型,这些模型在给定一组AUs的情况下预测情绪的概率[类似于人们如何从面部表情推断情绪]。以下是该方法在概念层面上的工作原理。假设核分析的思想是基于观察和特征集合(例如,AUs,自变量)与假设(例如,“快乐用AU6和12表示”)之间的相似性来预测分类因变量(这里是感知到的情绪)。本研究可以将这一预测与实际观察结果进行比较,以评估假设的准确性。这里必须克服三个方法上的挑战:(i)我们应该如何衡量观察和假设之间的相似性?(ii)如何根据这种相似性得出预测?以及(iii)应该如何将预测与实际数据进行比较?图3用五个步骤概述了这三个挑战的解决方案,即(1)将假设嵌入到AU空间;(2)将每个刺激嵌入与假设相同的AU空间;(3)计算每个刺激和每个假设情绪类别之间的相似性;(4)得出对每个刺激的预测;(5)量化每个模型的预测性能。

图3.方法示意图。

结果

预测

在第一阶段,本研究使用了一种新方法(假设核分析),将先前报告的基于定性AU的情绪模型转换为预测模型。评估了每个模型预测人类在执行相同任务(对大量随机生成的动态面部表情进行分类)时提供的情绪类别的能力。本研究使用受试者操作曲线下面积(AUROC)总结了七个模型中每个模型预测80名参与者(40WE和40EA)分类行为的效果——对于随机分配标签的二元分类模型(预测一种情绪相对于所有其他情绪),概率水平为0.5,对于完美预测每个标签的模型,理论最大值为1。对于每种情绪,本研究还估计了代表最大可实现模型性能的噪声上限。最大理论值(即AUROC=1)意味着不同参与者用相同的情绪标签对相同的AU组合进行分类。如果参与者用不同的情绪标签对相同的AU组合进行分类,那么任何仅基于AU的模型都无法减少这种“实验噪声”,这将使噪声上限低于1,从而降低模型可以解释的方差比例。

图4A总结了每个模型的平均预测性能和每个参与者的AUROC分数,分别用颜色编码条和颜色编码点表示。虚线表示每个模型的噪声上限(如上所示的精确值)。在大多数情绪中,大多数模型预测的分类行为远高于随机水平(即AUROC为0.5),情绪之间存在一些显著差异,例如,恐惧(平均AUROC=0.57)与惊讶(平均AUROC=0.76),以及模型之间的差异,例如Keltner等人[2019;平均AUROC=0.66]与Jack等人[2014;平均AUROC=0.74]。然而,平均性能(跨模型和情绪,AUROC=0.68)仍远低于平均噪声上限(AUROC=0.88),这表明模型没有达到最佳性能。此外,由于噪声上限低于理论最大值(AUROC=1),这些基于AU的模型原则上无法解释人类情绪分类中相当大比例的方差。

图4.预测的结果。

图4B显示了取决于参与者文化的性能差异(各模型的平均值)。平均而言,WE参与者在厌恶、恐惧和惊讶方面的模型性能明显优于EA参与者(α=0.05)。相比之下,EA参与者在快乐模型上的表现优于WE参与者。重要的是,当模型包含文化特征时,这些跨文化差异在探索阶段就消失了。

解释

在建模的第二阶段,旨在通过量化每个AU对模型性能的因果效应来解释不同模型的行为预测和相对准确性。为此,本研究使用了前面所描述的AU消融方法,该方法系统地从每个模型中移除(即“消融”)单个AU,并重新计算其行为预测性能。

图5显示了从面部表情模型中消融AUs的方法如何解释其预测。图5A图解说明了AU消融过程及其结果。具体而言,对于特定的厌恶模型(AU9+AU25,“原始模型”),单个AU(例如AU9)的消融可能会导致模型性能降低或提高,从而分别表明该AU是性能关键型或性能不利型(见右下方的颜色编码)。将此消融程序应用于所有模型。图5B以颜色编码矩阵显示结果。对于每个情绪类别(y轴),颜色编码矩阵根据每个单独AU的消融显示AUROC性能差异(标签见x轴),在所有模型上取平均值。红色表示对人类行为的预测性能降低(例如,AU9表示厌恶,AU5表示惊讶),蓝色表示预测性能增加(例如AU5表示悲伤;见右侧颜色条)。结果表明,每个面部表情模型都可以通过选择性地添加性能关键型和去除对性能不利的AUs来进行改进。此外,每种文化中的消融分析表明,其性能关键型和性能不利型的AUs是不同的,这意味着探索特定于文化的模型可以提高其预测性能。为了验证这一点,本研究进行了第三个也是最后一个探索阶段。

图5.解释的结果。

探索

在建模的最后阶段,本研究旨在利用解释人类情绪分类的发现自动生成和探索替代性的面部表情优化模型。因为性能关键型和性能不利型的AUs是特定于文化的,所以本研究在WE和EA文化中分别探索了模型优化。具体来说,为了优化WE或EA文化中的给定模型,本研究(i)添加了所有在消融时降低性能的AUs和(ii)删除了所有在消融时提高性能的AUs。对于每个原始表达模型,此过程生成了两个优化模型:WE-特征模型和EA-特征模型。图6A说明了这种探索过程,通过添加性能关键型AU(例如AU9)和删除性能不利型AU(例如AU25),得到了一个更新的厌恶假设模型(AU10+AU25)。然后,本研究在新参与者的新刺激下评估了这些优化的模型,有效地对这些模型进行了交叉验证。

图6.探索的结果。

图6B显示了在每种情绪下,优化后的以文化为重点的模型相对于原始模型在预测性能方面的改进(用∆AUROC表示)。对于大多数模型和情绪,优化模型的自动生成提高了性能,其中愤怒的改进幅度最大(各模型改进的中值=0.12),惊讶的改进幅度最小(各模型改进的中值=0.05)。优化后的模型由于能更好地解开原本经常混淆的情绪,因此具有更好的预测性能。

最后,图6C显示了WE和EA参与者的优化的、具有文化特征模型的预测性能。在探索之后,优化的、具有文化特征的模型在WE和EA参与者之间没有产生显著的预测差异(α=0.05)。因此,这些结果表明,使用优化的模型进行探索可以弥补此处测试模型的WE偏差。其他分析进一步表明,文化特征模型对大多数情绪的预测性能更强,偏差更小。

对其他情绪的概括

在预测阶段,本研究评估了每个模型对人类情绪分类的预测程度。图7A显示,除了Cunningham等人(2005)外,所有模型都解释了所有情绪的显著方差。此外,图7B显示,评估的会话信号模型在WE参与者中的表现也明显优于EA参与者,重现了在基本情绪模型中观察到的文化偏差。在解释阶段,消融分析确定了每个模型和情绪的性能关键型和性能不利型AUs。探索阶段使用这些见解来构建优化的、以文化为中心的模型。图7C概述了优化模型相较于原始模型的预测性能的变化(∆AUROC),结果表明除el Kaliouby和Robinson外,每个模型都有显著改善(见图7A)。与基本情绪模型一样,优化后的会话信号模型对WE或EA参与者的表现没有明显更好或更差——除了“困惑”在WE参与者中表现更好(P=0.03)。

图7.会话信号数据集的原始和优化模型性能。

结论

本研究测试了不同的模型,这些模型提供了关于AUs如何与面部情绪表达具体相关的竞争性的假设。在利用假设核分析这一新技术将这些定性模型转化为预测模型后,将其嵌入到一个新的预测-解释-探索框架中。在这个框架内,本研究比较了每个模型预测来自WE和EA参与者的大量动态面部表情刺激的人类情绪分类的准确性。然后,使用系统性AU消融的方法解释了哪些特定AUs会影响预测精度,最后利用这些不同模型的相对优势自动生成和探索更新的模型,从而显著改善预测性能。最后,本研究证明了具有文化特征的六种面部表情模型可以更好地预测人类行为的文化多样性。本研究预期,在预测模型的背景下,本研究的预测-解释-探索框架将通过开发更准确地反映人类非语言沟通的复杂性和多样性的模型,从而加深我们对社会信号的理解。

原文:Testing, explaining, and exploring models of facial expressions of emotions.

https://www.science.org/doi/10.1126/sciadv.abq8421

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值