论文阅读（数据集）：The Extended Cohn-Kanade Dataset (CK+)

只想毕业的小菜鸟

于 2022-02-15 17:33:02 发布

阅读量5.6k

点赞数 1

分类专栏：数据集文章标签：人工智能计算机视觉

本文链接：https://blog.csdn.net/qq_43250196/article/details/122948077

版权

数据集专栏收录该内容

1 篇文章

订阅专栏

The Extended Cohn-Kanade Dataset (CK+): A complete dataset for action unit and emotion-specified expression

原文传送门：https://ieeexplore.ieee.org/abstract/document/5543262

摘要

2000 年发布了 Cohn-Kanade (CK) 数据库，旨在促进自动检测个人面部表情的研究。从那时起，CK 数据库已成为算法开发和评估中使用最广泛的测试平台之一。在此期间，三个限制变得明显：1）虽然 AU 代码得到了很好的验证，但情感标签却没有，因为它们指的是请求的内容而不是实际执行的内容，2）缺乏针对来评估新算法，以及 3) 通用数据库的标准协议尚未出现。因此，CK 数据库已用于 AU 和情感检测（尽管后者的标签尚未经过验证），缺少与基准算法的比较，并且使用原始数据库的随机子集使得元分析困难。为了解决这些问题和其他问题，我们提出了扩展的 Cohn-Kanade (CK+) 数据库。序列数量增加了 22%，受试者数量增加了 27%。每个序列的目标表达是完全 FACS 编码的，情绪标签已经过修改和验证。除此之外，还添加了几种类型的微笑及其相关元数据的非姿势序列。我们使用主动外观模型 (AAM) 和线性支持向量机 (SVM) 分类器呈现基线结果，该分类器使用留一法交叉验证对 AU 和姿势数据的情绪检测。情绪和 AU 标签以及扩展的图像数据和跟踪的地标将于 2010 年 7 月提供。

1 介绍

自动检测面部表情已成为越来越重要的研究领域。它涉及计算机视觉、机器学习和行为科学，可用于许多应用，如安全[20]、人机交互[23]、驾驶员安全[24]和医疗保健[17]。在过去的十年中，该领域取得了重大进展 [21,22,27]，人们对自然背景下的非姿势面部行为越来越感兴趣 [4,17,25] 以及从多个视图中记录的姿势数据 [12,19]和 3D 成像 [26]。在大多数情况下，有几个限制是常见的。这些包括：

表达元数据的观察者间可靠性和有效性报告不一致或缺失。例如，情绪标签指的是请求的表达方式，而不是实际执行的内容。除非可以量化标签的有效性，否则不可能根据手动（人工）标准校准算法性能
用于评估 AU 和情绪检测的新算法的通用性能指标。已建立算法的已发布结果将提供一个基本基准，用于比较新算法的性能。
通用数据库的标准协议，以进行可能的定量荟萃分析。

这些因素的累积效应使得对各种系统进行基准测试变得非常困难或不可能。 Cohn-Kanade (CK) 数据库 [14] 的使用突出了这一点，该数据库是用于开发和评估面部表情分析算法的最广泛使用的数据集之一。在其当前分布中，CK（或 DFAT）数据库包含 97 个受试者的 486 个序列。每个序列都包含从开始（中性帧）到峰值表达（最后一帧）的图像。峰值帧被可靠地 FACS 编码为面部动作单元 (AU)。由于其受欢迎程度，该领域的大多数最新进展都评估了它们对 CK 数据库的改进 [16,22,25,2,15]。然而，如上所述，一些作者在数据库上采用了留一法交叉验证策略，另一些作者选择了另一种随机训练/测试集配置。其他作者也报告了广泛情绪检测任务的结果，即使数据集没有分发经过验证的情绪标签。这些因素的结合使得很难衡量该领域的当前最先进水平，因为没有进行可靠的比较。这是当前可用的许多公开可用数据集的常见问题，例如 MMI [19] 和 RUFACS [4] 数据库（请参阅 Zeng 等人 [27] 对当前可用数据库的彻底调查）。
在本文中，我们尝试通过介绍扩展的 Cohn-Kanade (CK+) 数据库来解决这三个问题，顾名思义，它是对当前 CK 数据库的扩展。我们添加了另外 107 个序列以及另外 26 个主题。每个序列的峰值表达是完全 FACS 编码的，情绪标签已经参考 FACS 调查员指南 [9] 进行了修订和验证，情绪研究人员通过目视检查确认。我们建议使用留一法的主题交叉验证策略和接收器操作员特征（ROC）曲线下方的区域来评估性能以及上限误差测量。我们使用我们的主动外观模型（AAM）/支持向量机（SVM）系统展示了这方面的基线结果。

2 CK+数据集

2.1 图片数据
使用两台硬件同步的 Panasonic AG-7500 相机记录了 210 名成年人的面部行为。参与者年龄在 18 至 50 岁之间，69% 为女性，81% 为欧洲裔美国人，13% 为非裔美国人，6% 为其他群体。参与者在实验者的指导下进行一系列 23 次面部展示；这些包括单个动作单元和动作单元的组合。每个展示都以中性面开始和结束，并注明任何例外情况。正面视图和 30 度视图的图像序列被数字化为具有 8 位灰度或 24 位颜色值的 640x490 或 640x480 像素阵列。该数据库的全部细节在[14]中给出。
2.1.1 摆出的面部表情
在原始分布中，CK 包括来自 97 名受试者的 486 个 FACS 编码序列。对于 CK+ 分布，我们进一步扩充了数据集以包括来自 123 名受试者的 593 个序列（另外 107 个（22%）序列和 26 个（27%）科目）。图像序列的持续时间不同（即 10 到 60 帧），并将起始（也是中性帧）与面部表情的峰值形成结合在一起
2.1.2 无姿势的面部表情
在 CK 的记录过程中，84 名受试者在两次任务之间一次或多次对实验者微笑。这些微笑不是为了响应请求而表现出来的。他们将初始池包含在 CK+ 中。进一步纳入的标准是：a) 开始时相对中性的表情，b) 没有指示所请求的定向面部动作任务，c) 在微笑顶点之前没有面部遮挡，以及 d) 没有图像伪影（例如，相机运动）。来自 66 名受试者（91% 为女性）的 122 个微笑符合这些标准。 32% 伴随着简短的话语，考虑到社会环境，这并不意外，因此不是排除标准。
2.2. 行动单元标签
2.2.1 摆姿势
对于 593 个姿势序列，提供了峰值帧的完整 FACS 编码。大约 15% 的序列由第二个经过认证的 FACS 编码器进行比较编码。观察者间一致性用系数 kappa 进行量化，这是高于预期偶然发生的一致性的比例 [10]。观察者间一致性的平均 kappa 为 0.82，对于在顶点编码的动作单元和 0.75 用于逐帧编码。表 1 给出了 CK+ 数据库中编码的 AU 的清单。FACS 代码与峰值帧一致。
2.2.2 非定式表达式
动作单元的一个子集被编码为存在/不存在。这些是 AU 6、AU 12、微笑控制（AU 15、AU 17、AU 23/24）和 AU 25/26。对 20% 的微笑进行了比较编码。由 Cohens kappa 系数测量的编码器间一致性对于 AU 6 为 0.83，对于微笑控制为 0.65。
2.3. 验证情绪标签
2.3.1 摆姿势
我们包括了来自 593 个序列池的所有图像数据，这些序列具有基于受试者对 7 种基本情绪类别的印象的名义情绪标签：愤怒、轻蔑、厌恶、恐惧、快乐、悲伤和惊喜。使用这些标签作为基本事实是非常不可靠的，因为这些模仿通常与 FACS 概述的刻板定义不同。这可能会导致地面实况数据出现错误，从而影响系统的训练。因此，我们根据 FACS 编码的情感标签标记了 CK+。选择过程分为三个步骤：

我们将 FACS 代码与 FACS 手册 [9] 中的情绪预测表进行了比较。情绪预测表列出了每种情绪的原型和主要变体的面部配置（根据 AU 组合），除了蔑视。如果一个序列满足某种情绪的原型或主要变体的标准，则它被临时编码为属于该情绪类别。第一步，通过严格应用“情绪预测”规则与情绪预测表进行比较。严格应用规则意味着存在表中未列出的其他 AU，或者缺少 AU 会导致剪辑被排除在外。
第一遍之后，进行了更松散的比较。如果一个序列包含一个未包含在原型或变体中的 AU，我们确定它们是否与情感或剧透一致。例如，可以考虑意外展示中的 Au 4与感情不相符。（AU 4 是负面情绪或注意力的一个组成部分，而不是惊讶）。厌恶背景下的 au4 将被认为是一致的，因为它是负面情绪的一个组成部分，并且可能伴随着 au9。类似地，我们评估了是否缺少任何必要的 au。表 2 列出了资格标准。如果缺少 Au，其他考虑因素包括： AU20 不应该出现，除了恐惧；除了厌恶之外，不应出现 AU9 或 AU10。微妙的 AU9 或 AU10 可以在愤怒中出现。
第三步涉及对表情是否类似于目标情感类别的感知判断。这一步并不完全独立于前两步，因为包含情绪必要成分的表达很可能表现为该情绪的表达。然而，第三步是因为 FACS 代码只描述了峰值阶段的表情，并没有考虑导致峰值表情的面部变化。因此，有必要对剪辑从开始到峰值进行目视检查，以确定表达是否能很好地表达情绪。

作为这个多步骤选择过程的结果，发现 593 个序列中有 327 个符合七种离散情绪之一的标准。表 3 给出了该选择过程的清单。图 1 给出了 CK+ 数据集的示例。
在这里插入图片描述

在这里插入图片描述

2.3.2 不摆姿势的微笑
序列一次将一个投影到一个大屏幕上，以 10 到 17 人为一组。参与者在每个项目后的暂停期间记录他们的判断。他们被要求观看整个剪辑，并在看到剪辑末尾的项目编号后做出判断。判断包括微笑类型（逗乐、尴尬、紧张、礼貌或其他）和微笑强度的李克特类型评分（从 1 = 没有情绪出现到 7 = 极度情绪），以及对微笑类型判断的信心（从1 = 没有信心 7 = 极度有信心）。
对于每个序列，我们计算了将其判断为有趣、尴尬、紧张、礼貌或其他的参与者的百分比。这些百分比被称为判断分数。从五个判断分数中，如果至少 50% 的参与者支持该类型并且不超过 25% 的参与者支持另一种，则将微笑分配给模态类型。 50% 的认可标准代表了最小的模态响应。竞争对手类型的 25% 最大认可用于确保模态响应的离散性。根据这一标准，19 人被归类为感到开心，23 人被归类为礼貌，11 人被归类为尴尬或紧张，1 人被归类为其他。 CK+ 包括模态分数和每个序列的评分。有关使用这部分数据库的详细信息和未来工作，请参阅并引用 [1]。

3.基线系统

在我们的系统中，我们采用基于主动外观模型 (AAM) 的系统，该系统使用 AAM 来跟踪面部并提取视觉特征。然后我们使用支持向量机（SVM）对面部表情和情绪进行分类。图 2 给出了我们系统的概述。我们在以下小节中描述了这些模块中的每一个。
3.1 主动外观模型 (AAM)
主动外观模型 (AAM) 已被证明是一种将预定义的线性形状模型（也具有线性外观变化）与包含感兴趣对象的先前未见过的源图像对齐的好方法。一般来说，AAMs 通过梯度下降搜索来拟合它们的形状和外观组件，尽管其他优化方法也被采用了类似的结果 [7]。
AAM [7] 的形状 $s4 由 2D 三角网格描述。特别是，网格顶点的坐标定义了形状 $s = [x_1, y_1, x_2, y_2, . . . , x_n, y_n]$ ，其中 $n$ 是顶点数。这些顶点位置对应于源外观图像，形状从该图像对齐。由于 AAM 允许线性形状变化，形状 $s$ 可以表示为基本形状 $s_0$ 加上 $m$ 个形状向量 $s_i$ 的线性组合：
在这里插入图片描述

其中系数 $p = (p_1, . . . , p_m)^T$ 是形状参数。这些形状参数通常可以分为刚性相似参数 $p_s$ 和非刚性物体变形参数 $p_o$ ，使得 $p^T = [p^T_s , p^T_o ]$ 。相似度参数与几何相似度变换（即平移、旋转和缩放）相关联。特定于对象的参数是表示与确定对象形状（例如，张嘴、闭眼等）相关的非刚性几何变化的残差参数。 Procrustes 对齐 [7] 用于估计基本形状 $s_0$ 。
每个视频序列中的关键帧被手动标记，而剩余的帧使用[18]中描述的梯度下降 AAM 拟合算法自动对齐。
3.2.特征提取
一旦我们通过估计形状和外观 AAM 参数来跟踪患者的面部，我们就可以使用此信息得出以下特征：
• SPTS：相似性归一化形状 $s_n$ 指的是 $s_n$ 中 $x$ 和 $y$ 坐标的68 个顶点，产生一个原始的136 维特征向量。这些点是相对于基本形状的所有刚性几何变化（平移、旋转和缩放）已被移除后的顶点位置。相似度归一化形状 $s_n$ 可以通过使用公式 1 合成 $s$ 的形状实例来获得，该公式忽略相似度参数 $p$ 。图 2 给出了相似归一化形状特征 SPTS 的一个示例。在这项工作中使用了 AU0 归一化，通过减去第一帧的特征（这是中性的）。
• CAPP：规范归一化外观 $a_0$ 指的是所有非刚性形状变化都已相对于基本形状 $s_0$ 归一化。这是通过在源图像中的每个三角形补丁外观上应用分段仿射扭曲来实现的，以便它与基本面形状对齐。在本研究中，使用了生成的 87 × 93 合成灰度图像。在以前的工作 [3] 中，通过消除刚性形状变化表明，性能较差。因此，本文只使用了规范的归一化外观特征 $a_0$ 。
3.3.支持向量机分类
支持向量机 (SVM) 已被证明可用于许多模式识别任务，包括面部和面部动作识别。支持向量机试图找到最大化特定类的正负观察之间的边距的超平面。对未标记的测试观察 $x^∗$ 做出线性 SVM 分类决策：
在这里插入图片描述

其中 $w$ 是分离超平面的法线向量， $b$ 是偏差。 $w$ 和 $b$ 都被估计，以使它们最小化训练集的结构风险，从而避免过度拟合训练数据的可能性。通常， $w$ 不是明确定义的，而是通过支持向量的线性和来定义的。我们的实验中使用了线性核，因为它能够很好地泛化到许多模式识别任务中的未见数据 [13]。 LIBSVM 用于 SVM 的训练和测试 [6]。
对于 AU 检测，我们只使用了一个线性的 one-vs-all 两类 SVM（即感兴趣的 AU 与感兴趣的非 AU）。对于每个 AU 检测器的线性 SVM 训练，使用了训练集中的所有中性和峰值帧。编码为包含 AU 的帧用作正例，所有其他帧都用作负例，无论 AU 是单独出现还是与其他 AU 结合出现。 SVM 的输出仅与到超平面的距离有关，这对于单个决策很有效。然而，当从不同的支持向量机比较它们时，这些分数没有真正的意义。因此，比较或组合这些分数没有意义，并且可能导致错误的结果。需要将分数校准到一个公共域中，以便进行比较和融合。逻辑线性回归是执行此操作的一种方法 [5]。在本文中，我们融合了 SPTS 和 CAPP 特征集的分数，以确定这两者之间是否存在任何互补信息。 FoCal 包用于使用 LLR [5] 校准和融合各种 AU SVM 分数。
对于情绪检测的任务，必须做出强制的多类决策。为了适应这一点，使用了一对多的多类 SVM（即愤怒与不愤怒、快乐与不快乐等）。所有被编码为感兴趣的特定情绪的帧都被用作正例，所有其他帧都被用作负例。对可能的情绪进行了七向强制选择（中性被忽略，因为从所有特征中减去了中性框架）。

4 实验

4.1 基准协议和评估指标
在本文中，我们记录了可以在 CK+ 数据库的 posed 部分进行的两种类型的实验：(i) AU 检测，和 (ii) 情绪检测。为了最大限度地提高训练和测试数据的数量，我们认为应该使用留一个主题的交叉验证配置。这意味着对于 AU 检测，需要使用 123 个不同的训练和测试集，而对于情感检测，需要使用 118 个不同的训练和测试集。
在评估不同的实验方面，对于 AU 检测，接收者 - 操作者特征 (ROC) 曲线下方的区域是一种可靠的测量方法。随着决策阈值的变化，通过绘制命中率（真阳性）与误报率（假阳性）来获得该曲线。该曲线下方的区域 ( $A^{'}$ ) 用于评估性能 [4]。 $A^{'}$ 度量的范围从 50（纯机会）到 100（理想分类）1。结果应该在这些集合中取平均值。还应包括 $A^{'}$ 统计量不确定性的上限，以了解性能的可靠性。一个常用的统计量是 $\sqrt{\frac{A'(1-A')}{min \{n_p ,n_n \}}}$ 其中 $n_p$ , $n_n$ 是正例和负例的数量 [8, 25]。对于情绪检测，我们使用混淆矩阵来记录结果。
4.2. AU检测结果
表 4 给出了相似归一化形状 (SPTS) 和规范外观 (CAPP) 特征以及这两种特征的组合的 AU 检测结果。从结果中可以看出，所有特征类型都实现了非常好的整体准确度 $A^{'} > = 90$ 的性能，结合 SPTS+CAPP 功能产生最佳性能，评分为 94.5。这表明在形状和外观特征之间存在互补信息。
在单个 AU 检测方面，可以看出，根据 AU，性能最佳的特征集会有所不同。在比较单个 SPTS 和 CAPP 特征时，SPTS 特征对 AUs 1、2、4、23、25 和 27 产生了更高的检测率，而 CAPP 特征对 AUs 5、6、7、9 的检测率更高， 11, 12, 15, 17, 20, 24 和 26。尽管其中一些 AU 的性能差异很小，但对这些结果的解释可以源于 AAM 2-D 网格。例如，AUs 1、2 和 4 是与眉毛运动一致的动作，当它们位于 AAM2-D 网格上时，可以很容易地被形状特征拾取。对于 AUs 6,9 和 11，在术语方面有很多纹理变化皱纹，而不是轮廓运动，这说明了为什么 CAPP 特征在这些方面的表现优于 SPTS。
在这里插入图片描述

在这里插入图片描述

4.3.情绪检测结果
表 5 给出了用于情绪检测的形状（SPTS）特征的性能，可以看出，与其他情绪相比，厌恶、幸福和惊喜都表现良好。这个结果很直观，因为这些是非常独特的情绪，会导致面部出现很多变形。与这些情绪相关的 AU 也位于 AAM 网格上，因此我们的系统很容易检测到这些区域的运动。相反，出于同样的原因，不在 AAM 网格上的其他情绪（即愤怒、悲伤和恐惧）表现不佳。然而，对于这些情绪，纹理信息似乎更重要。这在表 6 中突出显示。厌恶也有所改善，因为与这种原型情感相关的鼻子皱纹 (AU9) 中包含大量纹理信息。
对于 SPTS 和 CAPP 功能，Contempt 的命中率都非常低。然而，当 SPTS 和 CAPP SVM 的输出结合起来（通过对输出概率求和）时，可以看出这种情绪的检测从刚刚超过 20% 跃升至超过 80%，如表 7 所示。因为这可能是因为这种情绪非常微妙，很容易与其他更强烈的情绪混淆。然而，这两个特征集中都不存在混淆。恐惧和悲伤等其他更微妙的情绪似乎也发生了这种情况，这两种情绪都受益于形状和外观特征的融合。
表 7 中给出的结果似乎与最近的感知研究一致。在对 Karolinska 定向情绪面孔 (KDEF) 数据库 [11] 进行的一项验证研究中，6 种基本情绪（即 CK+ 中除轻蔑之外的所有情绪）加上中性的结果与此处介绍的相似。在这项研究中，他们使用了 490 张图像（即每种情绪 70 张），每种情绪的命中率为 2：愤怒 - 78.81% (75.00%)、厌恶 - 72.17% (94.74%)、恐惧 - 43.03% (65.22%)、快乐- 92.65% (100%)，悲伤 - 76.70% (68.00%)，惊讶 - 96.00% (77.09%)，中性 - 62.64% (100%)3。
这表明自动化系统可以做得很好，如果不是更好地作为一个天真的人类观察者，并且由于感知到微妙情绪之间的模糊性而遭受同样的困惑。但是，需要在 CK+ 数据库上执行人工观察者评级，并且需要在 KDEF 数据库上执行自动结果以测试这些声明的有效性。

5 结论和未来工作

在本文中，我们为那些希望为自动面部表情检测建立原型和基准系统的研究人员描述了扩展 Cohn-Kanade (CK+) 数据库。由于原始 Cohn-Kanade 数据集的流行和易于访问，这被视为对已经存在的现有语料库的非常有价值的补充。为了使全自动系统在无数现实场景中的所有表达都具有鲁棒性，需要更多数据。要实现这一点，需要跨多种视觉可变性的非常大的可靠编码数据集（每个动作至少有 5 到 10k 个示例）。由于与捕获、编码、存储和分发此类数据相关的成本，这将需要来自广泛研究机构的协同研究努力。在数据库的最终分布中，我们希望通过非正面数据来扩充我们在此描述的内容，这些数据由 30 度角的姿势表情的同步视图组成。