论文阅读(数据集):The Extended Cohn-Kanade Dataset (CK+)

The Extended Cohn-Kanade Dataset (CK+): A complete dataset for action unit and emotion-specified expression

原文传送门:https://ieeexplore.ieee.org/abstract/document/5543262

摘要

2000 年发布了 Cohn-Kanade (CK) 数据库,旨在促进自动检测个人面部表情的研究。从那时起,CK 数据库已成为算法开发和评估中使用最广泛的测试平台之一。在此期间,三个限制变得明显:1)虽然 AU 代码得到了很好的验证,但情感标签却没有,因为它们指的是请求的内容而不是实际执行的内容,2)缺乏针对来评估新算法,以及 3) 通用数据库的标准协议尚未出现。因此,CK 数据库已用于 AU 和情感检测(尽管后者的标签尚未经过验证),缺少与基准算法的比较,并且使用原始数据库的随机子集使得元分析困难。为了解决这些问题和其他问题,我们提出了扩展的 Cohn-Kanade (CK+) 数据库。序列数量增加了 22%,受试者数量增加了 27%。每个序列的目标表达是完全 FACS 编码的,情绪标签已经过修改和验证。除此之外,还添加了几种类型的微笑及其相关元数据的非姿势序列。我们使用主动外观模型 (AAM) 和线性支持向量机 (SVM) 分类器呈现基线结果,该分类器使用留一法交叉验证对 AU 和姿势数据的情绪检测。情绪和 AU 标签以及扩展的图像数据和跟踪的地标将于 2010 年 7 月提供。

1 介绍

自动检测面部表情已成为越来越重要的研究领域。它涉及计算机视觉、机器学习和行为科学,可用于许多应用,如安全[20]、人机交互[23]、驾驶员安全[24]和医疗保健[17]。在过去的十年中,该领域取得了重大进展 [21,22,27],人们对自然背景下的非姿势面部行为越来越感兴趣 [4,17,25] 以及从多个视图中记录的姿势数据 [12,19]和 3D 成像 [26]。在大多数情况下,有几个限制是常见的。这些包括:

  1. 表达元数据的观察者间可靠性和有效性报告不一致或缺失。例如,情绪标签指的是请求的表达方式,而不是实际执行的内容。除非可以量化标签的有效性,否则不可能根据手动(人工)标准校准算法性能
  2. 用于评估 AU 和情绪检测的新算法的通用性能指标。已建立算法的已发布结果将提供一个基本基准,用于比较新算法的性能。
  3. 通用数据库的标准协议,以进行可能的定量荟萃分析。

这些因素的累积效应使得对各种系统进行基准测试变得非常困难或不可能。 Cohn-Kanade (CK) 数据库 [14] 的使用突出了这一点,该数据库是用于开发和评估面部表情分析算法的最广泛使用的数据集之一。在其当前分布中,CK(或 DFAT)数据库包含 97 个受试者的 486 个序列。每个序列都包含从开始(中性帧)到峰值表达(最后一帧)的图像。峰值帧被可靠地 FACS 编码为面部动作单元 (AU)。由于其受欢迎程度,该领域的大多数最新进展都评估了它们对 CK 数据库的改进 [16,22,25,2,15]。然而,如上所述,一些作者在数据库上采用了留一法交叉验证策略,另一些作者选择了另一种随机训练/测试集配置。其他作者也报告了广泛情绪检测任务的结果,即使数据集没有分发经过验证的情绪标签。这些因素的结合使得很难衡量该领域的当前最先进水平,因为没有进行可靠的比较。这是当前可用的许多公开可用数据集的常见问题,例如 MMI [19] 和 RUFACS [4] 数据库(请参阅 Zeng 等人 [27] 对当前可用数据库的彻底调查)。
在本文中,我们尝试通过介绍扩展的 Cohn-Kanade (CK+) 数据库来解决这三个问题,顾名思义,它是对当前 CK 数据库的扩展。我们添加了另外 107 个序列以及另外 26 个主题。每个序列的峰值表达是完全 FACS 编码的,情绪标签已经参考 FACS 调查员指南 [9] 进行了修订和验证,情绪研究人员通过目视检查确认。 我们建议使用留一法的主题交叉验证策略和接收器操作员特征(ROC)曲线下方的区域来评估性能以及上限误差测量。我们使用我们的主动外观模型(AAM)/支持向量机(SVM)系统展示了这方面的基线结果。

2 CK+数据集

2.1 图片数据
使用两台硬件同步的 Panasonic AG-7500 相机记录了 210 名成年人的面部行为。 参与者年龄在 18 至 50 岁之间,69% 为女性,81% 为欧洲裔美国人,13% 为非裔美国人,6% 为其他群体。 参与者在实验者的指导下进行一系列 23 次面部展示; 这些包括单个动作单元和动作单元的组合。 每个展示都以中性面开始和结束,并注明任何例外情况。 正面视图和 30 度视图的图像序列被数字化为具有 8 位灰度或 24 位颜色值的 640x490 或 640x480 像素阵列。 该数据库的全部细节在[14]中给出。
2.1.1 摆出的面部表情
在原始分布中,CK 包括来自 97 名受试者的 486 个 FACS 编码序列。对于 CK+ 分布,我们进一步扩充了数据集以包括来自 123 名受试者的 593 个序列(另外 107 个(22%)序列和 26 个 (27%)科目)。 图像序列的持续时间不同(即 10 到 60 帧),并将起始(也是中性帧)与面部表情的峰值形成结合在一起
2.1.2 无姿势的面部表情
在 CK 的记录过程中,84 名受试者在两次任务之间一次或多次对实验者微笑。 这些微笑不是为了响应请求而表现出来的。 他们将初始池包含在 CK+ 中。 进一步纳入的标准是:a) 开始时相对中性的表情,b) 没有指示所请求的定向面部动作任务,c) 在微笑顶点之前没有面部遮挡,以及 d) 没有图像伪影(例如 ,相机运动)。 来自 66 名受试者(91% 为女性)的 122 个微笑符合这些标准。 32% 伴随着简短的话语,考虑到社会环境,这并不意外,因此不是排除标准。
2.2. 行动单元标签
2.2.1 摆姿势
对于 593 个姿势序列,提供了峰值帧的完整 FACS 编码。 大约 15% 的序列由第二个经过认证的 FACS 编码器进行比较编码。 观察者间一致性用系数 kappa 进行量化,这是高于预期偶然发生的一致性的比例 [10]。观察者间一致性的平均 kappa 为 0.82,对于在顶点编码的动作单元和 0.75 用于逐帧编码。 表 1 给出了 CK+ 数据库中编码的 AU 的清单。FACS 代码与峰值帧一致。
2.2.2 非定式表达式
动作单元的一个子集被编码为存在/不存在。 这些是 AU 6、AU 12、微笑控制(AU 15、AU 17、AU 23/24)和 AU 25/26。 对 20% 的微笑进行了比较编码。 由 Cohens kappa 系数测量的编码器间一致性对于 AU 6 为 0.83,对于微笑控制为 0.65。
2.3. 验证情绪标签
2.3.1 摆姿势
我们包括了来自 593 个序列池的所有图像数据,这些序列具有基于受试者对 7 种基本情绪类别的印象的名义情绪标签:愤怒、轻蔑、厌恶、恐惧、快乐、悲伤和惊喜。 使用这些标签作为基本事实是非常不可靠的,因为这些模仿通常与 FACS 概述的刻板定义不同。 这可能会导致地面实况数据出现错误,从而影响系统的训练。 因此,我们根据 FACS 编码的情感标签标记了 CK+。 选择过程分为三个步骤:

  1. 我们将 FACS 代码与 FACS 手册 [9] 中的情绪预测表进行了比较。情绪预测表列出了每种情绪的原型和主要变体的面部配置(根据 AU 组合),除了蔑视。如果一个序列满足某种情绪的原型或主要变体的标准,则它被临时编码为属于该情绪类别。第一步,通过严格应用“情绪预测”规则与情绪预测表进行比较。严格应用规则意味着存在表中未列出的其他 AU,或者缺少 AU 会导致剪辑被排除在外。
  2. 第一遍之后,进行了更松散的比较。如果一个序列包含一个未包含在原型或变体中的 AU,我们确定它们是否与情感或剧透一致。例如,可以考虑意外展示中的 Au 4与感情不相符。(AU 4 是负面情绪或注意力的一个组成部分,而不是惊讶)。厌恶背景下的 au4 将被认为是一致的,因为它是负面情绪的一个组成部分,并且可能伴随着 au9。类似地,我们评估了是否缺少任何必要的 au。表 2 列出了资格标准。如果缺少 Au,其他考虑因素包括: AU20 不应该出现,除了恐惧;除了厌恶之外,不应出现 AU9 或 AU10。微妙的 AU9 或 AU10 可以在愤怒中出现。
  3. 第三步涉及对表情是否类似于目标情感类别的感知判断。这一步并不完全独立于前两步,因为包含情绪必要成分的表达很可能表现为该情绪的表达。然而,第三步是因为 FACS 代码只描述了峰值阶段的表情,并没有考虑导致峰值表情的面部变化。因此,有必要对剪辑从开始到峰值进行目视检查,以确定表达是否能很好地表达情绪。

作为这个多步骤选择过程的结果,发现 593 个序列中有 327 个符合七种离散情绪之一的标准。表 3 给出了该选择过程的清单。图 1 给出了 CK+ 数据集的示例。
在这里插入图片描述

在这里插入图片描述

2.3.2 不摆姿势的微笑
序列一次将一个投影到一个大屏幕上,以 10 到 17 人为一组。参与者在每个项目后的暂停期间记录他们的判断。他们被要求观看整个剪辑,并在看到剪辑末尾的项目编号后做出判断。判断包括微笑类型(逗乐、尴尬、紧张、礼貌或其他)和微笑强度的李克特类型评分(从 1 = 没有情绪出现到 7 = 极度情绪),以及对微笑类型判断的信心(从1 = 没有信心 7 = 极度有信心)。
对于每个序列,我们计算了将其判断为有趣、尴尬、紧张、礼貌或其他的参与者的百分比。这些百分比被称为判断分数。从五个判断分数中,如果至少 50% 的参与者支持该类型并且不超过 25% 的参与者支持另一种,则将微笑分配给模态类型。 50% 的认可标准代表了最小的模态响应。竞争对手类型的 25% 最大认可用于确保模态响应的离散性。根据这一标准,19 人被归类为感到开心,23 人被归类为礼貌,11 人被归类为尴尬或紧张,1 人被归类为其他。 CK+ 包括模态分数和每个序列的评分。有关使用这部分数据库的详细信息和未来工作,请参阅并引用 [1]。

3.基线系统

在我们的系统中,我们采用基于主动外观模型 (AAM) 的系统,该系统使用 AAM 来跟踪面部并提取视觉特征。然后我们使用支持向量机(SVM)对面部表情和情绪进行分类。图 2 给出了我们系统的概述。我们在以下小节中描述了这些模块中的每一个。
3.1 主动外观模型 (AAM)
主动外观模型 (AAM) 已被证明是一种将预定义的线性形状模型(也具有线性外观变化)与包含感兴趣对象的先前未见过的源图像对齐的好方法。一般来说,AAMs 通过梯度下降搜索来拟合它们的形状和外观组件,尽管其他优化方法也被采用了类似的结果 [7]。
AAM [7] 的形状 $s4 由 2D 三角网格描述。特别是,网格顶点的坐标定义了形状 s = [ x 1 , y 1 , x 2 , y 2 , . . . , x n , y n ] s = [x_1, y_1, x_2, y_2, . . . , x_n, y_n] s=[x1,y1,x2,y2,...,xn,yn],其中 n n n 是顶点数。这些顶点位置对应于源外观图像,形状从该图像对齐。由于 AAM 允许线性形状变化,形状 s s s 可以表示为基本形状 s 0 s_0 s0 加上 m m m 个形状向量 s i s_i si 的线性组合:
在这里插入图片描述

其中系数 p = ( p 1 , . . . , p m ) T p = (p_1, . . . , p_m)^T p=(p1,...,pm)T 是形状参数。这些形状参数通常可以分为刚性相似参数 p s p_s ps 和非刚性物体变形参数 p o p_o po ,使得 p T = [ p s T , p o T ] p^T = [p^T_s , p^T_o ] pT=[psT,poT]。相似度参数与几何相似度变换(即平移、旋转和缩放)相关联。特定于对象的参数是表示与确定对象形状(例如,张嘴、闭眼等)相关的非刚性几何变化的残差参数。 Procrustes 对齐 [7] 用于估计基本形状 s 0 s_0 s0
每个视频序列中的关键帧被手动标记,而剩余的帧使用[18]中描述的梯度下降 AAM 拟合算法自动对齐。
3.2.特征提取
一旦我们通过估计形状和外观 AAM 参数来跟踪患者的面部,我们就可以使用此信息得出以下特征:
• SPTS:相似性归一化形状 s n s_n sn 指的是 s n s_n sn x x x y y y 坐标的68 个顶点,产生一个原始的136 维特征向量。这些点是相对于基本形状的所有刚性几何变化(平移、旋转和缩放)已被移除后的顶点位置。相似度归一化形状 s n s_n sn 可以通过使用公式 1 合成 s s s 的形状实例来获得,该公式忽略相似度参数 p p p。图 2 给出了相似归一化形状特征 SPTS 的一个示例。在这项工作中使用了 AU0 归一化,通过减去第一帧的特征(这是中性的)。
• CAPP:规范归一化外观 a 0 a_0 a0 指的是所有非刚性形状变化都已相对于基本形状 s 0 s_0 s0 归一化。这是通过在源图像中的每个三角形补丁外观上应用分段仿射扭曲来实现的,以便它与基本面形状对齐。在本研究中,使用了生成的 87 × 93 合成灰度图像。在以前的工作 [3] 中,通过消除刚性形状变化表明,性能较差。因此,本文只使用了规范的归一化外观特征 a 0 a_0 a0
3.3.支持向量机分类
支持向量机 (SVM) 已被证明可用于许多模式识别任务,包括面部和面部动作识别。支持向量机试图找到最大化特定类的正负观察之间的边距的超平面。对未标记的测试观察 x ∗ x^∗ x 做出线性 SVM 分类决策:
在这里插入图片描述

其中 w w w 是分离超平面的法线向量, b b b 是偏差。 w w w b b b 都被估计,以使它们最小化训练集的结构风险,从而避免过度拟合训练数据的可能性。通常, w w w 不是明确定义的,而是通过支持向量的线性和来定义的。我们的实验中使用了线性核,因为它能够很好地泛化到许多模式识别任务中的未见数据 [13]。 LIBSVM 用于 SVM 的训练和测试 [6]。
对于 AU 检测,我们只使用了一个线性的 one-vs-all 两类 SVM(即感兴趣的 AU 与感兴趣的非 AU)。对于每个 AU 检测器的线性 SVM 训练,使用了训练集中的所有中性和峰值帧。编码为包含 AU 的帧用作正例,所有其他帧都用作负例,无论 AU 是单独出现还是与其他 AU 结合出现。 SVM 的输出仅与到超平面的距离有关,这对于单个决策很有效。然而,当从不同的支持向量机比较它们时,这些分数没有真正的意义。因此,比较或组合这些分数没有意义,并且可能导致错误的结果。需要将分数校准到一个公共域中,以便进行比较和融合。逻辑线性回归是执行此操作的一种方法 [5]。在本文中,我们融合了 SPTS 和 CAPP 特征集的分数,以确定这两者之间是否存在任何互补信息。 FoCal 包用于使用 LLR [5] 校准和融合各种 AU SVM 分数。
对于情绪检测的任务,必须做出强制的多类决策。为了适应这一点,使用了一对多的多类 SVM(即愤怒与不愤怒、快乐与不快乐等)。所有被编码为感兴趣的特定情绪的帧都被用作正例,所有其他帧都被用作负例。对可能的情绪进行了七向强制选择(中性被忽略,因为从所有特征中减去了中性框架)。

4 实验

4.1 基准协议和评估指标
在本文中,我们记录了可以在 CK+ 数据库的 posed 部分进行的两种类型的实验:(i) AU 检测,和 (ii) 情绪检测。为了最大限度地提高训练和测试数据的数量,我们认为应该使用留一个主题的交叉验证配置。这意味着对于 AU 检测,需要使用 123 个不同的训练和测试集,而对于情感检测,需要使用 118 个不同的训练和测试集。
在评估不同的实验方面,对于 AU 检测,接收者 - 操作者特征 (ROC) 曲线下方的区域是一种可靠的测量方法。随着决策阈值的变化,通过绘制命中率(真阳性)与误报率(假阳性)来获得该曲线。该曲线下方的区域 ( A ′ A' A) 用于评估性能 [4]。 A ′ A' A度量的范围从 50(纯机会)到 100(理想分类)1。结果应该在这些集合中取平均值。还应包括 A ′ A' A统计量不确定性的上限,以了解性能的可靠性。一个常用的统计量是 s = A ′ ( 1 − A ′ ) m i n { n p , n n } s = \sqrt{\frac{A'(1-A')}{min \{n_p ,n_n \}}} s=min{np,nn}A(1A) 其中 n p n_p np , n n n_n nn 是正例和负例的数量 [8, 25]。对于情绪检测,我们使用混淆矩阵来记录结果。
4.2. AU检测结果
表 4 给出了相似归一化形状 (SPTS) 和规范外观 (CAPP) 特征以及这两种特征的组合的 AU 检测结果。从结果中可以看出,所有特征类型都实现了非常好的整体准确度 A ′ > = 90 A' >= 90 A>=90 的性能,结合 SPTS+CAPP 功能产生最佳性能,评分为 94.5。这表明在形状和外观特征之间存在互补信息。
在单个 AU 检测方面,可以看出,根据 AU,性能最佳的特征集会有所不同。在比较单个 SPTS 和 CAPP 特征时,SPTS 特征对 AUs 1、2、4、23、25 和 27 产生了更高的检测率,而 CAPP 特征对 AUs 5、6、7、9 的检测率更高, 11, 12, 15, 17, 20, 24 和 26。尽管其中一些 AU 的性能差异很小,但对这些结果的解释可以源于 AAM 2-D 网格。例如,AUs 1、2 和 4 是与眉毛运动一致的动作,当它们位于 AAM2-D 网格上时,可以很容易地被形状特征拾取。对于 AUs 6,9 和 11,在术语方面有很多纹理变化皱纹,而不是轮廓运动,这说明了为什么 CAPP 特征在这些方面的表现优于 SPTS。
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

4.3.情绪检测结果
表 5 给出了用于情绪检测的形状(SPTS)特征的性能,可以看出,与其他情绪相比,厌恶、幸福和惊喜都表现良好。这个结果很直观,因为这些是非常独特的情绪,会导致面部出现很多变形。与这些情绪相关的 AU 也位于 AAM 网格上,因此我们的系统很容易检测到这些区域的运动。相反,出于同样的原因,不在 AAM 网格上的其他情绪(即愤怒、悲伤和恐惧)表现不佳。然而,对于这些情绪,纹理信息似乎更重要。这在表 6 中突出显示。厌恶也有所改善,因为与这种原型情感相关的鼻子皱纹 (AU9) 中包含大量纹理信息。
对于 SPTS 和 CAPP 功能,Contempt 的命中率都非常低。然而,当 SPTS 和 CAPP SVM 的输出结合起来(通过对输出概率求和)时,可以看出这种情绪的检测从刚刚超过 20% 跃升至超过 80%,如表 7 所示。因为这可能是因为这种情绪非常微妙,很容易与其他更强烈的情绪混淆。然而,这两个特征集中都不存在混淆。恐惧和悲伤等其他更微妙的情绪似乎也发生了这种情况,这两种情绪都受益于形状和外观特征的融合。
表 7 中给出的结果似乎与最近的感知研究一致。在对 Karolinska 定向情绪面孔 (KDEF) 数据库 [11] 进行的一项验证研究中,6 种基本情绪(即 CK+ 中除轻蔑之外的所有情绪)加上中性的结果与此处介绍的相似。在这项研究中,他们使用了 490 张图像(即每种情绪 70 张),每种情绪的命中率为 2:愤怒 - 78.81% (75.00%)、厌恶 - 72.17% (94.74%)、恐惧 - 43.03% (65.22%)、快乐- 92.65% (100%),悲伤 - 76.70% (68.00%),惊讶 - 96.00% (77.09%),中性 - 62.64% (100%)3。
这表明自动化系统可以做得很好,如果不是更好地作为一个天真的人类观察者,并且由于感知到微妙情绪之间的模糊性而遭受同样的困惑。但是,需要在 CK+ 数据库上执行人工观察者评级,并且需要在 KDEF 数据库上执行自动结果以测试这些声明的有效性。

5 结论和未来工作

在本文中,我们为那些希望为自动面部表情检测建立原型和基准系统的研究人员描述了扩展 Cohn-Kanade (CK+) 数据库。由于原始 Cohn-Kanade 数据集的流行和易于访问,这被视为对已经存在的现有语料库的非常有价值的补充。为了使全自动系统在无数现实场景中的所有表达都具有鲁棒性,需要更多数据。要实现这一点,需要跨多种视觉可变性的非常大的可靠编码数据集(每个动作至少有 5 到 10k 个示例)。由于与捕获、编码、存储和分发此类数据相关的成本,这将需要来自广泛研究机构的协同研究努力。在数据库的最终分布中,我们希望通过非正面数据来扩充我们在此描述的内容,这些数据由 30 度角的姿势表情的同步视图组成。

### 回答1: Cohn-Kanade是一个人脸识别公共数据集,该数据集收集了超过500个人,每个人拍摄了多个表情的图片。该数据集被广泛用于面部表情识别、情感分析等领域的研究中。为了保证数据的准确性和一致性,每个表情都由多个专业的标注者进行了标注。同时,在这个数据集中,每个面部表情都有对应的动态视频,可以用于研究面部表情的轨迹和演化。 在计算机视觉领域,人脸识别一直是一个颇具挑战性的问题。Cohn-Kanade的出现,为研究者提供了一个标准化的数据集,使得不同的研究者可以进行比较和复现。该数据集的使用范围包括但不限于:情感识别、人机交互、安全控制等。并且,它还促进了一系列研究,例如研究面部表情如何随着年龄的增长发生变化,以及如何开发一种受身体姿势和面部表情共同影响的人机交互。 因此,Cohn-Kanade计算机视觉领域里比较有影响力的数据集之一,对智能人脸识别、人机交互等领域的研究具有重要意义。 ### 回答2: Cohn-Kanade是一个被广泛应用于计算机视觉领域的人脸表情数据库,由美国圣迭戈大学和纽约大学共同开发。该数据库包含500张由130位志愿者表演的自然人脸表情图像序列,共计593个图像。每个图像序列由以帧为单位的图像组成,每个图像都标注了相应的人脸特征点(如嘴唇、眼睛等)。通过这些标注点,研究人员可以实现对人脸表情的自动识别与分析。 Cohn-Kanade数据库的应用广泛,涵盖情感计算、机器视觉、计算机图像处理等多个领域。例如,在情感计算领域,研究人员可以利用该数据库实现对人脸表情的情感分类,以此帮助计算机更好地理解人类的情感。此外,在计算机视觉应用领域,Cohn-Kanade数据库也可作为数据来源,帮助计算机视觉算法进行人脸表情检测和识别。总之,Cohn-Kanade数据库是计算机视觉领域的重要研究资源,其应用前景广阔。 ### 回答3: Cohn-Kanade数据库是用于面部表情识别研究的标准数据集之一。该数据库包含了不同人种男女的面部表情,包括快乐、悲伤、愤怒等六种情绪。这些表情是通过将69个面部特征点(如眼睛、嘴巴等)标注在目标人脸上获得的。该数据库的收集过程相当严格和标准化,以确保数据的准确性和可靠性。Cohn-Kanade数据库可用于各种领域,如人脸识别、面部表情分析、情绪检测等。对其的广泛研究和应用,为人们带来了更多的兴趣和发现,促进了计算机视觉人工智能技术的发展。在百度上搜索Cohn-Kanade,可以获得大量相关论文的链接和相关资源的介绍,对于学习和研究相关领域的人士来说是非常有帮助的。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值