AFEM学习笔记

m0_60813772

于 2024-05-07 15:05:19 发布

阅读量1.7k

点赞数 43

文章标签：学习笔记

本文链接：https://blog.csdn.net/m0_60813772/article/details/138504043

版权

Collecting Large, Richly Annotated Facial-Expression Databases from Movies

收集代表真实世界条件的注释丰富的大型数据集是一项具有挑战性的任务。随着计算机视觉研究的进展，研究人员已经开发出强大的人脸表情分析解决方案，但主要只适用于严格控制的环境。面部表情是一个人的内在情感状态、意图或社会交往所引起的可见的面部变化。十多年来，自动面部表情分析一直是一个活跃的研究领域，在情感计算、智能环境、测谎、精神病学、情感和语言交流，多模态人机交互等方面都有应用。

在自动人脸分析领域，真实感数据起着重要的作用。然而，正如面部分析社区的任何人都会证明的那样，这样的数据集非常难以获得。在过去的几年里，由于现实数据库的可用性以及强大的表示和分类技术，在面部和人类活动识别领域取得了很大进展。然而，尽管存在几个流行的面部表情数据库，但大多数都是在严格控制的实验室环境中记录的，其中要求受试者生成某些表情。这些实验室场景绝不是真实的世界的真实代表。理想情况下，我们想要一个在具有挑战性的现实世界环境中自发面部表情的数据集。

为了解决这个问题，我们已经收集了两个新的面部表情数据库来自电影通过半自动推荐为基础的方法。我们从电影场景中提取了一个时间和静态面部表情数据库，这些场景比以前的数据集更接近真实的世界。该数据库包含显示自然头部姿势和运动的视频，接近真实世界的照明，同一帧中的多个主题，遮挡和可搜索的元数据。这些数据集还覆盖了很大的年龄范围，包括幼儿、儿童和青少年受试者，这在其他当前可用的时间面部表情数据库中是缺失的。

受Labeled Faces in the Wild（LFW）数据库的启发，1我们将我们的时间数据库称为Acted Facial Expressions in the Wild（AFEW）及其静态子集Static Facial Expressions in the Wild（SFEW）。2在这种情况下，“在野外”是指面部表情发生的挑战性条件，而不是自发的面部表情。我们相信，这些数据集将有助于推进面部表情研究，并作为在现实世界环境中进行面部表情分析算法实验验证的基准。

构建面部表情数据集

到目前为止，研究人员手动收集所有面部表情数据库，这既耗时又容易出错。为了解决这一限制，我们提出了一个视频剪辑基于字幕解析的推荐系统。而不是手动扫描一个完整的电影，我们的标签只审查推荐系统建议的视频剪辑，它搜索的剪辑与一个主题显示一个有意义的表达的概率很高。这种方法使我们能够快速收集和注释大量数据。基于网络上关于电影及其内容的详细信息的可用性，标签人员用关于主题的密集信息注释视频剪辑。我们对数据库元数据使用了基于XML的表示，这使得它可以使用任何传统的编程语言进行搜索和访问。

在过去的十年中，研究人员已经开发出强大的面部表情分析方法，这些方法沿着他们不同的数据库，遵循各种实验协议。这严重限制了客观评价不同方法的能力。作为回应，我们已经定义了明确的实验协议，这代表了不同的主题依赖性的情况。

鉴于网络上的视频数据量巨大，研究在坚韧条件下的面部表情分析问题是值得的。对于AFEW数据集，我们用六种基本表情之一来标记视频片段：愤怒，厌恶，恐惧，快乐，悲伤，惊讶或中性。该数据库捕获面部表情、自然头部姿势运动、遮挡、主体的种族、性别、不同年龄和场景中的多个主体。我们的基线结果表明，据报道，目前的面部表情识别方法在现有数据集上实现了较高的识别率，但无法科普这种现实环境，因此需要建立新的数据库和进一步的研究。

虽然电影通常是在某种程度上受控的环境中拍摄的，但它们比当前实验室记录的数据集更接近真实世界的环境。我们并不认为AFEW是一个独特的面部表情数据库。然而，很明显，方法演员试图模仿现实世界中的人类行为，给予观众一种错觉，他们是自发的行为，而不是摆姿势，在电影中。特别是AFEW数据集，它解决了在接近真实世界条件的困难条件下的时间面部表情问题，这提供了很多比现有的数据集更难的测试集。

相关数据集

最早出版的数据库之一是广泛使用的Cohn-Kanade数据库，其中包含97名在实验室情境中摆出六种通用和中性表情的受试者。它的扩展CK+包含123个主题，但新的视频是在类似的环境中拍摄的。3 Multi-PIE数据库是另一个流行的数据库，包含在实验室中记录的五个会话的时间和静态样本。4它包含337个主题，涵盖不同的姿势和照明场景。这些数据库中的每一个都是手动构建的，主题在连续的场景中摆姿势。MMI数据库是一个可搜索的时间数据库，包含75个主题。6所有这些都是姿势，实验室控制的环境数据库。受试者表现出各种各样的行为（不是自发的）表达。记录环境与真实世界的条件相差甚远。

RU-FACS（罗格斯大学和加州圣地亚哥大学，面部动作编码系统[FACS]）数据库是一个包含自发面部表情的FACS编码时间数据库，6但它是专有的，其他研究人员无法使用。贝尔法斯特数据库由录音室录音和标有特定表达式的电视节目抓取的组合组成。7该数据库中的电视剪辑数量很少。与用于构建和注释这些数据库的手动方法相比，我们的推荐系统方法更快，更容易访问。元数据模式是XML格式的，因此可以从各种语言和平台轻松搜索和访问。相反，CK、CK+、MultiPIE、RU-FACS和贝尔法斯特必须手动检索。

日本女性面部表情（JAFFE）数据库是最早的静态面部表情数据库之一。8它包含10名日本女性的219张图像。然而，它的样本和受试者数量有限，并且也是在实验室控制的环境中创建的。在第一个近距离真实数据的实验中，Marco Paleari，Ryad Chellali和Benoit Huet提出了一个双峰，基于音频视频特征的系统。

表1比较了这些和其他面部表情数据库。我们的AFEW数据库在精神上与LFW数据库1和好莱坞人类行为（HOHA）数据库相似。15这些数据库包含各种姿势，照明，年龄，性别和遮挡。然而，LFW是一个静态的人脸识别数据库，它是从网络上找到的人脸图像中创建的，专门用于人脸识别，而HOHA是一个从电影中创建的动作识别数据库。

数据库贡献

AFEW和SFEW数据库提供了几个新的贡献，以最先进的状态。AFEW是一个动态的，时间的面部表情数据语料库组成的短视频剪辑的面部表情在接近现实世界的环境。据我们所知，SFEW也是唯一一个涵盖七个面部表情类别的静态、艰苦条件数据库。我们的受试者年龄从1岁到70岁不等，这使得所得到的数据集在年龄方面具有通用性，与其他面部表情数据库不同。数据库中有许多描绘儿童和青少年的片段，可用于研究年轻受试者的面部表情。这些数据集也可用于静态和时间面部年龄研究。据我们所知，AFEW是目前唯一一个在同一帧中具有多个标记主题的面部表情数据库。这将有助于研究主题（表达）涉及多个主题的场景，在给定的时间内，这些主题可能具有相同的表达，也可能不具有相同的表达。

该数据库还展示了接近真实的照明条件。剪辑包括具有室内、夜间和室外自然照明的场景。虽然电影制片厂使用受控照明条件，即使在户外环境中，这些比实验室控制的环境更接近自然条件，因此，对面部表情研究很有价值。数据集中照明条件的多样性使其不仅可用于面部表情分析，还可能用于面部识别、面部对齐、年龄分析和动作识别。

我们选择的电影覆盖了大量演员。许多演员出现在数据集中的多部电影中，这将使研究人员能够研究他们的表达如何随着时间的推移而演变，他们是否因不同类型而有所不同等等。

数据库模式的设计基于XML。这使得有关数据及其主题的更多信息可以在任何阶段轻松添加，而无需更改视频剪辑。这意味着可以使用关于主题和场景的属性进行详细注释。

数据库下载网站还将包含关于实验协议以及用于时间和静态面部表情识别（FER）实验的训练和测试分割的信息。

数据库创建

为了构建数据库，我们采用了半自动的方法，并将过程分为两个部分（参见图1）。首先，在推荐系统中提取和解析字幕。第二，人工标注者基于互联网上可用的信息来标注推荐的剪辑。

我们购买并分析了54部电影DVD。我们从DVD中提取了聋人和听力受损（SDH）字幕和隐藏字幕（CC）字幕，因为它们包含有关音频和非音频上下文的信息，如情感和有关演员和场景的信息（例如，[CHEERLY]，[SHOUTS]和[SURPRISED]）。我们使用VobSub Rip（VSRip）工具（www.videohelp.com/ tools/VSRip）从电影中提取字幕。对于VSRip无法提取字幕的电影，我们从网上下载了SDH。使用光学字符识别（OCR）解析提取的字幕图像，并使用字幕编辑工具（www.nikse.dk/se）将其转换为.srt字幕格式。.srt格式包含开始时间、结束时间和文本内容，精度为毫秒。

视频推荐系统

一旦字幕被提取出来，我们就解析字幕并搜索与表情相关的关键词，例如，快乐，悲伤，惊讶、喊叫、哭泣、呻吟、欢呼、大笑、哭泣、沉默、愤怒、哭泣、悲伤、失望和惊讶。如果找到，系统会向贴标人员推荐视频剪辑。从字幕信息中提取剪辑的开始和结束时间。系统按顺序播放视频剪辑，贴标人员从Web输入有关剪辑及其角色和演员的信息。如果剪辑包含多个演员，则标记序列基于两个条件。对于出现在同一帧中的演员，注释的顺序是从左到右。如果演员出现在不同的时间戳，那么它是在出现的顺序。视频中的主导表达被标记为主题表达。然后将标签存储在XML元数据模式中。最后，贴标人员输入角色的年龄或他或她的估计年龄（如果此信息不可用）。

这54张DVD的字幕总共包含77666个单独的字幕。其中，推荐系统推荐了10327个对应于包含表达关键词的字幕的剪辑。贴标人员根据以下标准从这些视频中选择了1426个片段，这些标准包括主体的可见存在，至少部分面部可见，以及有意义的表情显示。因为字幕是由人类手动创建的，所以它们可能包含错误。这可能导致推荐系统建议错误剪辑的情况。然而，贴标人员可以拒绝一项建议。在对剪辑进行注释时，贴标人员使用剪辑的视频、音频和字幕信息来做出明智的决定。我们可以使用建议的推荐系统轻松地添加更多的剪辑到数据库中，并在未来扩大它。

图1.数据库创建过程。从DVD中提取字幕，然后由推荐系统解析。在这个例子中，来自2009年的电影The Hangover，当字幕包含关键字“笑”时，该工具播放相应的剪辑。然后，人工标注者使用GUI工具，基于Web上可用的剪辑中的主题信息，对场景中的主题进行注释。生成的注释（在本例中包含关于包含多个主题的场景的信息）存储在图底部显示的XML模式中。

数据集标注

我们的数据库包含有关videoclipsinanXML架构的元数据，可实现高效的数据处理和更新。人类标注者用表情和主题信息密集地标注视频剪辑。

主题信息包含描述场景中的演员和/或角色的各种属性：

--姿势。这表示基于贴标签者的观察的头部姿势。在当前版本中，我们手动将头部姿势分类为正面或非正面。

--角色年龄。通常情况下，只有主角的角色的年龄在网上。标签人员估计了其他人的年龄。

--演员姓名。这里我们提供演员的真实的姓名。

--演员年龄。标签制作者从www.imdb.com上提取了演员的真实的年龄。在少数情况下，年龄信息丢失了，所以标注器估计它。

--expression of person。这表示由人类观察者标注的字符的表达式类。这可能不同于更高级的表情标签，因为在帧中可能有多个人相对于彼此和场景/主题显示不同的表情。

--性别.这里我们提供演员的性别。

标记指定场景所表达的主题表达式。表情分为六个表情类别，加上中性。默认值是基于在字幕文本中找到的搜索关键字—例如，我们使用happiness来表示"smile"和"cheer"。人类观察者可以根据他们对剪辑中的音频和场景的观察来改变它。

这种基于XML的元数据模式有两个主要优点。首先，在任何支持XML的平台上使用任何标准编程语言都很容易使用和搜索。其次，该结构使得在未来添加关于视频剪辑的新属性变得简单，例如人的姿势和场景信息，同时保持现有数据并确保预先存在的工具可以以最小的变化利用此信息。

目前，数据库元数据为1426个视频剪辑编制索引。表2给出了数据库的详细信息。有关如何获得数据库及其实验方案的更多信息，请访问www.example.com。

SFEW

静态面部表情分析数据库（如Multi-PIE和JAFFE）是在严格控制的环境中进行实验室记录的数据库。我们从AFEW中提取帧来创建一个静态图像数据库，以更接近地表示真实的世界。随后，我们描述了三个版本的SFEW，这是基于主题的依赖程度，在不同的情况下，用于评估系统的面部表情识别性能。SFEW的严格独立于个人的版本在早期的工作4中进行了描述，并作为挑战发布在基准面部图像分析技术（BEFIT）网站（http：//fipa.cs.kit.edu/511.php）上。

对比

为了评估我们的数据集，我们将AFEW和SFEW上最先进的描述符的性能与现有的广泛使用的数据集进行了比较。具体而言，我们将AFEW与CK+数据库进行了比较，CK+数据库是Cohn-Kanade数据库的扩展。一个基本的面部表达由不同的时间动态阶段组成：起始、顶点和偏移阶段。在CK+中，所有视频都遵循时间动态序列：中性！开始！顶点，这不是真实反映表达式在真实世界情况下的显示方式，因为缺少关于偏移相位的数据。

我们还认为，包含完整的时间序列的所有数据可能并不总是可用的。例如，一个人进入一个场景可能已经很快乐，接近最高的快乐强度（开始）。早期在CK+等现有数据库上训练的系统已经在这些阶段学习。然而，在现实世界的设置中，不能保证完整的时间动态阶段的可用性。在我们的数据库中，这是不固定的，由于它的封闭的自然设置。为了提取人脸，我们在CK+序列上计算Viola-Jones检测器16。在我们的比较实验中，我们使用了来自AFEW和CK+数据库的六个常见类别（愤怒，恐惧，厌恶，快乐，悲伤和惊讶）。

我们比较了SFEW与JAFFE和多PIE数据库在两个实验：SFEW，JAFFE和多PIE的基础上的四个常见的表达类（厌恶，中性，幸福，惊喜）和比较SFEW和JAFFE的所有七个表达类的比较。

我们计算了所有数据库中裁剪过的人脸的特征描述符。裁剪后的人脸被分为4*4块，分别用于局部二值模式（LBP）、17局部相位量化（LPQ）、17和金字塔梯度直方图（PHOG）。18对于LBP和LPQ，我们将邻域大小设置为8。对于PHOG，面元长度为8，金字塔等级L为2，角度范围等于[0，360]。我们对提取的特征进行了主成分分析（PCA），并保留了98%的方差。对于分类，我们使用支持向量机（SVM）学习模型。核是C-支持向量分类（C-SVC），具有径向基函数（RBF）核。我们使用五重交叉验证来选择参数。对于AFEW，静态描述符被连接。LBP-TOP在所有方法中表现最好。CK+的总体表达分类准确度要高得多（见图2）。

图2.LBP、PHOG、LPQ和LBP—TOP在CK+和AFEW数据库上的性能。描述符在AFEW数据集上表现不佳。

对于SFEW四个表达类实验，LPQ和PHOG在MultiPIE子集上的分类准确率分别为86.25%和88.25%。对于JAFFE，LPQ为83.33%，PHOG为90.83%。对于SFEW，LPQ和PHOG分别为53.07%和57.18%。在7个表达类别的实验中，JAFFE对LPQ和PHOG的分类准确率分别为69.01%和86.38%。对于SFEW，LPQ为43.71%，PHOG为46.28%。因此，LPQ和PHOG在JAFFE和Multi—PIE上实现了高精度，但在SFEW上实现了明显较低的精度。

在我们看来，最先进的描述符对AFEW和SFEW的性能不佳的主要原因是，这些最先进的方法进行了实验的数据库记录在实验室环境中。在接近真实世界的情况下进行表情分析是一项不平凡的任务，需要在方法的各个阶段使用更复杂的方法，例如鲁棒的人脸定位和跟踪，照明和姿态不变性。

实验方案

多年来，研究人员提出了许多基于不同数据库的实验的面部表情识别方法，这些实验遵循不同的协议，因此很难公平地比较结果。因此，我们为这两个数据库创建了严格的实验方案。不同的协议是基于人的依赖程度存在于集（见表3）。

BEFIT研讨会挑战2属于SFEW的严格人员独立（SPI）。数据、标签和其他协议将在数据库网站上提供。AFEW部分人员独立（PPI）包含745个视频，AFEW SPI包含741个视频，分为两组。AFEW Strictly Person Independent（SPI）包含演员丹尼尔雷德克里夫的40个视频，用于四种表情类别（恐惧，快乐，中立和惊喜）。对于SFEW，SFEW SPS包含丹尼尔雷德克里夫的76张图像，用于五种表情类别（愤怒、恐惧、快乐、中性和惊讶）。SFEW PPI包含700张图像，SFEW SPI包含700张图像，分为两组。

基线

对于SFEW的所有协议，我们根据我们早期工作中定义的方法计算基线。2（这些结果是对集合进行训练和测试的平均值。PHOG和LPQ特征计算裁剪的脸。这些特征被连接在一起以形成特征向量。对于降维，我们计算了PCA并保留了98%的方差。此外，我们使用非线性SVM学习和分类表达式。（同样，请参阅我们之前的工作以了解参数选择的详细信息。2）为了对时间数据进行编码，我们计算了LBP—TOP特征，如前一节所述。

表4显示了两个数据库及其协议的分类准确性。较低的分类精度的结果表明，目前的方法是不适合现实世界的情况。

结论

面部表情分析是一个很好的研究领域。然而，由于缺乏描述真实世界状况的数据库，这一领域的进展受到阻碍。在现有数据集上表现良好的最先进的FER方法在我们这里提出的数据集上表现不佳。这是由于缺乏鲁棒的“在野外”的脸对齐方法和有效的时间描述符。作为未来工作的一部分，我们将适应当前的方法和扩展算法在恶劣条件下的FER。AFEW包含组级表达视频剪辑，将来可用于开发分析包含人群场景中主题表达的系统。我们相信，这些数据集将为面部表情研究做出新的贡献，并作为在现实环境中进行面部表情分析算法实验验证的基准。