论文翻译（11）-CASME Database: A Dataset of Spontaneous Micro-Expressions Collected From Neutralized Faces

最新推荐文章于 2024-09-26 19:39:28 发布

此生辽阔

最新推荐文章于 2024-09-26 19:39:28 发布

阅读量1.3k

点赞数

分类专栏：论文学习

本文链接：https://blog.csdn.net/ningmengshuxiawo/article/details/109566291

版权

论文学习专栏收录该内容

17 篇文章

订阅专栏

CASME数据库:从被中和的人脸中收集的自发微表情数据集

CASME Database: A Dataset of Spontaneous Micro-Expressions Collected From Neutralized Faces
论文地址：链接：https://pan.baidu.com/s/1PggKePEXd324YjkX9AVTHA 提取码：npaf

摘要

微表情是转瞬即逝的面部表情，揭示了人们试图隐藏的真实情感。这些是检测谎言和危险行为的重要线索，因此在诸如临床领域和国家安全等各个领域具有潜在的应用。然而，通过肉眼识别是非常困难的。因此，计算机视觉领域的研究人员试图开发微表情检测和识别算法，但缺乏自发的微表情数据库。在这项研究中，我们试图建立一个自发微表情的数据库，这些表情是从被中和的面孔中提取出来的。基于以前的心理学研究，我们设计了一个有效的实验过程来引出自发的微表情，并仔细分析视频数据以提供有效和可靠的编码。从1500个60帧/秒以下拍摄的面部动作中，选择了195个微表情。对这些样本进行编码，以便对第一帧、峰值帧和最后一帧进行标记。动作单位(AUs)被标记以给出面部运动的客观和准确的描述。情绪是基于心理学研究和参与者的自我报告来标记的，以提高有效性。

一、导言

微表情是一种快速而短暂的面部表情，当人们试图隐藏自己真实的情绪时，尤其是在高风险的情况下[1][2]，就会出现这种表情。Haggard和Isaacs首先发现了微表情(微表情)，并认为它是被压抑的情绪[3][4]。1969年，埃克曼分析了一段采访视频，视频中一名抑郁症患者试图自杀，并发现了微表情。从那时起，在微表情领域进行了一些研究，但很少发表结果。由于微表情在诊断和国家安全过程中的潜在应用，微表情最近得到了广泛的应用。它被认为是发现谎言和危险行为的最有效的线索之一[2]。美国交通安全局已经采用了观察技术筛选乘客，这主要是基于微表情研究的发现[5]。在临床上，微表情可以用来了解患者的真实情绪，促进更好的治疗。然而，微表情被认为是如此短暂，以至于几乎无法检测到，因此人类很难检测到[2]。松本将任何短于500 ms的面部表情定义为微表情[6]，比常规面部表情快得多，容易被忽略。为了更好地将微表情应用于检测谎言和危险行为，应该结合高效的微表情识别系统，以大大减少所需的工作量和时间。因此，许多研究人员试图开发一种自动微表情识别系统，以帮助人们检测这种转瞬即逝的面部表情[7][8][9][10]。

面部表情数据库很多[11]，但微表情数据库很少。以下是用于开发检测和识别算法的少数微表情数据库:

USF高清包含100个微表情，分辨率720 × 1280，帧率29.7 fps。参与者被要求进行宏观和微观表达。对于微表情，参与者在被记录之前会看到一些包含微表情的示例视频。然后参与者被要求模仿它们[9]。

波利科夫斯基的数据库包含10名大学生受试者，他们被要求以低面部肌肉强度执行7种基本情绪，并尽快回到中性面部表情，模拟微表情运动。相机设置为:480 × 640分辨率，200fps [12]。

Y orkDDT包含18个微表情:7个来自情感场景，11个来自非情感场景；11个来自欺骗性场景，7个来自真实场景。在9名参与者(3名男性和6名女性)中发现了微表达[10][13]。

SMIC包含了77个自发的微表情，由一个100fps的相机记录下来。选择了一个带有惩罚威胁和高度情绪化片段的审讯室设置，以创造一种高度兴奋的情境，在这种情境中，经历高度情绪唤醒的参与者被激励抑制他们的面部表情[10]。

以前的微表情数据库包括以下一些问题:

不自然的微表情。其中一些是故意创造出来的，所以它们不同于自发的微观表达。根据埃克曼的说法，微表情不能被有意控制[1]。

不涉及情绪的面部动作。不仔细分析研究，很容易把不动感情的面部动作（unemotional facial movements）混淆为微表情，比如擤鼻子、吞口水、翻白眼。

缺乏精确的情感标注。从心理学的角度来看，这些数据库中有些没有正确的情感标签。微表情的情感标注与常规面部表情相似但不相同。

因此，我们开发了一个微表情数据库，以帮助这些研究人员的培训和评估过程。引发和分析微表情的方法是基于心理学研究的。在这里，我们提供了一种相对有效和高效的方法来创建一个自发的微表达数据库，它包括以下优点:

(1)样品是自发的、动态的微表达。每个微表情前后都是基线(通常是中性)脸，所以样本也可以用来评价检测算法

(2)参与者被要求在研究中保持中性面孔(中和范式)。因此，我们数据库中捕捉到的微表情是相对“纯净清晰”的，没有头部运动等噪声，也没有无关的面部运动。

(3)每个微表情都给出了动作单位。AUs给出了面部表情的详细动作，并有助于给出更准确的情感标签[14][15]。

(4)在不同的环境配置下使用两个不同的摄像机来增加视觉可变性。

(5)基于心理学研究和参与者的自我报告，对发生的情绪进行仔细标记。此外，不带感情色彩的面部动作也被去除了。

二、CASME数据库

中国科学院微表情(CASME)数据库包含195个60fps以下拍摄的微表情。他们是从超过1500个引发面部动作中挑选出来的。这些样本编码有起始、顶点和偏移帧，标记有动作单位(AUs)，标记有情绪。本研究招募了35名参与者(13名女性，22名男性)，平均年龄为22.03岁(标准差=1.60)。都提供了知情同意。

为数据库选择了持续时间不超过500毫秒的微表情。此外，持续时间超过500毫秒但发作持续时间小于250毫秒的面部表情也被选中，因为快速发作的面部表情的基本特征也是微表情。我们用两种不同的环境配置和两个不同的摄像头记录了面部表情。所以我们把样本分为两类:A类和b类。

A. Class A

A类样品由明基M31相机60fps记录，分辨率设为1280 × 720像素。参与者被记录在自然光下。数据分析的步骤在第三节采集和编码中。表1显示了样本的基本信息，图1显示了一个例子。
在这里插入图片描述 B. Class B
B类样品由点灰色GRAS-03K2C相机以60帧/秒的速度记录，分辨率设置为640 × 480像素。参与者被记录在一个有两个发光二极管灯的房间里。数据分析的步骤与A类中的步骤相同。我们选择了95个持续时间不超过500毫秒的样本和另外30个起始阶段不超过250毫秒的样本(见表二)。
在这里插入图片描述 C.微表情持续时间的分布拟合
我们使用了正态分布、伽玛分布、威布尔分布和伯恩鲍姆-桑德斯分布模型来拟合微观表达式的持续时间曲线，并提供了分布曲线(见图二-C和图3)。通过获得阿卡克的信息标准(AIC) [16]，伯恩鲍姆-桑德斯模型最适合总持续时间，而伽马模型最适合发作持续时间(表三)。
在这里插入图片描述
D.行动单位和情绪
给出了每个微表情的动作单位(AUs)(表四)。两个编码器独立编码，然后他们仲裁任何分歧。两个编码器之间的可靠性为0.83 [14]。标记情绪的标准主要基于埃克曼的研究[14]。考虑到在我们的研究中所引发的微表情主要是局部的和低强度的，我们在标记情绪时必须考虑参与者的自我评价和视频片段的内容。除了基本情绪之外，我们还提供了压抑和紧张，因为六种基本情绪并没有涵盖AUs的所有配置。
在这里插入图片描述 E.基线评估

这些三维数据在数学上很容易表示为3阶张量[17]。因此，我们使用了多重链接主成分分析(MPCA) [18]作为基线。从CASME数据库中，我们选择了厌恶、压抑、惊讶和紧张的情绪。微表情视频集被分成不同的图库和探针集。在本文中，Gm表示每个微表请随机选择m个样本进行训练，剩余样本用于测试。对于每个分区，我们使用20个随机分割进行交叉验证测试。所有样本都被手动裁剪并调整到64 × 64 × 64像素。

对于基线评估，我们对数据库进行了MPCA。收敛阈值η设置为0.1。最佳维数分别为10×10×10、20×20、30× 30、40×40、50×50和60×60×60。表五显示了这些最佳维度的平均性能

三.采集和编码

为了引出“无声”的微表情，我们采用了中和范式，在这种范式中，参与者在体验情绪时试图保持面部表情的中性。我们使用视频片段作为启发材料，其内容被认为具有很高的情感价值。在这项研究中，参与者经历了高觉醒和强烈的动机来掩饰他们的真实情绪。

A.启发材料
我们使用高情感效价的视频片段作为启发材料。从互联网上下载了17集视频，这些视频被认为是高度积极或消极的，可能会引发参与者的各种情绪。所选剧集的时长从大约1分钟到大约4分钟不等。每集主要引发一种情绪。20名参与者对视频片段的主要情绪进行了评分，每个评分从0到6，其中0是最弱的，6是最强的(见表六)。

B.启发程序

为了增强参与者隐藏情绪的动机，参与者首先被告知实验的目的是测试他们控制情绪的能力，这与他们的社会成功高度相关。参与者还被告知，他们的报酬与他们的表现直接相关。如从中扣除5元人民币每次都以支付作为一种惩罚(尽管我们最终为所有参与者提供了类似的支付)。此外，他们不允许将眼睛或头从屏幕上移开。

每个参与者都坐在19英寸的显示器前。三脚架上的摄像头(点灰色GRAS-03K2C或明基M31，每秒60帧)设置在监视器后面，以记录参与者的正面全脸。视频片段由实验者控制的计算机呈现。参与者被告知密切注视屏幕，保持中立的面孔。

在每一集结束后，参与者被要求在记录中观察他们自己的面部运动，并指出他们是否产生了不相关的面部运动，这些运动可以被排除在以后的分析之外。

C.编码过程
两名训练有素的编码员彻底检查了录音，并选择了快速面部表情。随后，他们独立地找出起始帧、顶点帧和偏移帧，并对分歧进行仲裁。两个编码器之间的可靠性(帧的一致性)为0.78[19]。当他们在位置上不一致时，取两个编码者的平均数。他们按以下步骤处理了录像:

第一步。第一步是粗略选择。这个过程是为了减少要分析的面部运动的数量，同时不遗漏任何目标。编码员以一半的速度播放记录，粗略地找出开始、顶点和偏移帧，然后选择持续时间不到1秒的面部表情。还注意到，我们研究中泄露的一些快速面部表情的特征是快速开始，偏移缓慢。因此，发作期小于500毫秒的快速发作面部表情(尽管总数持续时间长于1秒),因为它们具有特殊的时间特性；

第二步。然后将选定的样本转换成图片(每两帧提取一张图片)；

第三步。习惯性动作(如擤鼻涕)或其他无关动作(如吞咽唾液时按嘴唇、因吸入而扩张鼻子、因视力变化而动眉毛)引起的动作被去除。这些不相关的面部动作在实验后得到了参与者的证实。

第四步。通过采用逐帧的方法，编码器离17英寸的监视器半米远，以发现开始帧、顶点帧和偏移帧。有时面部表情消退得很慢，帧与帧之间的变化很难被眼睛察觉。对于这种偏移帧，编码器只将最后明显变化的帧编码为偏移帧，而忽略几乎察觉不到的变化帧。

四.讨论和结论

A.微表情的强度。
由于参与者试图中和他们的面部表情，这种压抑是强烈的。因此，在数据集中引出的面部表情的强度并不低。它们不仅快速，而且微妙。逐帧检查通常比实时观察更难发现微表情。换句话说，运动信息在识别这类微表情时很重要

B.情感标签的标准
与传统的面部表情不同，这个数据库中的微表情通常是部分出现的(要么是上脸，要么是下脸)。此外，这些微表情的强度较低，因此标记情绪的标准与传统的面部表情有些不同。虽然标记情绪的标准主要基于埃克曼的标准[14]，但我们仍然会考虑参与者的报告。比如AU 14和AU 17被认为是抑制。对于没有明确情绪但看起来紧张的面部表情，我们将其定义为紧张。

C.快速出现的面部表情
由于我们在引发微表情时使用的范式，一些面部表情出现得很快，但抵消得很慢。这些面部表情分享了微表情的基本特征，不自觉、快速，同时也揭示了参与者试图隐藏的真实情绪。因此，我们也将这些样本包含到数据库中。

D.未来工作和可用性
目前数据库很小。我们正在对剩余的视频记录进行编码，以创建更多的样本。因为微表达式的获取并不容易，编码也很耗时，所以这个数据库只能一点一点地扩大，我们将努力改进启发方法，并寻找更多的参与者来丰富这个数据库。

完整的数据库文件可向相应的作者索取。

综上所述，我们试图为研究者开发一个微表情识别算法提供一个令人满意的自发微表情数据库。在前人关于微观表达的心理学研究的基础上，我们改进了启发法和数据分析法。我们移除了不动声色的面部动作，并确保所选的微表情是真实的。经过多方努力，我们提供了一个具有有效性和可靠性的微表情数据库，希望我们的工作有助于开发一个高效的微表情识别系统。

参考文献

[11] C. Anitha, M. V enkatesha, and B. Adiga, “A survey on facial ex-pression databases,” International Journal of Engineering Science andTechnology, vol. 2, no. 10, pp. 5158–5174, 2010