【翻译】人脸表情识别工具包，附个人总结：AFFDEX SDK: A Cross-Platform RealTime Multi-Face Expression Recognition Toolkit-CSDN博客

本文链接：https://blog.csdn.net/devshilei/article/details/139155965

原文链接【 AFFDEX SDK: A Cross-Platform RealTime Multi-Face Expression Recognition Toolkit 】

1、翻译结果

标题

AFFDEX SDK：跨平台实时多人脸表情识别工具包

综述

我们提出了一个实时面部表情识别工具包，可以同时自动编码多人的表情。该工具包可在主要的移动和桌面平台（Android、iOS、Windows）上使用。该系统在世界上最大的面部表情数据集上进行训练，并经过优化，可在移动设备上运行，并且几乎没有错误检测。该工具包为设计新颖的界面提供了潜力，这些界面可以根据用户的面部表情来响应用户的情绪状态。我们展示了一个演示应用程序，该应用程序提供了相机捕获的表情的实时可视化。

作者关键词：面部表情；情感；情感计算

引言

情绪在日常生活中起着重要作用，人机交互可以从情绪感知中受益匪浅[1,5,7,9]。可以使对受试者的情绪做出反应的系统显得更有同理心，并提供更自然的用户接口。

介绍

脸部是最丰富的表达渠道之一。它既传达情感，又传达社交信号。面部动作编码系统（Facial Action Coding System, FACS）[3]是面部行为编码最全面、使用最广泛的客观分类法。面部动作单元（AU）是面部表情的组成部分。手动编码FACS非常费力和耗时。此外，对于任何实时或扩展的应用程序来说，这是不切实际的。过去，由于训练数据的可用性有限，面部表情的自动编码系统受到限制。使用类似于[6]的基于Web的框架，我们收集了数十万人的视频。这些视频由专业的FACS编码人员编码，以提供丰富的面部表情示例数据集。我们使用这些数据训练了最先进的面部动作和情绪分类器。在本文中，我们介绍了 AFFDEX 软件开发工具包（SDK）。SDK 提供了一个简单的界面，用于实时处理视频或直播中的多人脸。SDK 具有跨平台功能。

自动面部编码

我们的自动面部编码系统有四个主要组件：
1）面部和面部关键点检测，
2）面部纹理特征提取，
3）面部动作分类
4）情绪表情建模。
图 1 显示了概述。
图 1：自动面部编码管道。1）检测人脸并定位每个人脸上的关键人脸标志。2）使用 HOG 提取纹理特征。3）面部动作的分类。4）使用EMFACS对原型情绪进行建模。

图 1：自动面部编码管道。1）检测人脸并定位每个人脸上的关键人脸标志。2）使用 HOG 提取纹理特征。3）面部动作的分类。4）使用EMFACS对原型情绪进行建模。

人脸和人脸关键点检测
人脸检测是使用 Viola-Jones 人脸检测算法 [10] 执行的。然后，将关键点检测应用于每个面部边界框，并识别 34 个关键点。如果关键点检测的置信度为低于阈值时，将忽略边界框。面部标志、头部姿态和每张脸的眼内距离都在 SDK 中公开。

面部动作
定向梯度直方图（Histogram of Oriented Gradient, HOG）特征 [2] 是从面部关键点定义的感兴趣图像区域中提取的。支持向量机（SVM）分类器在从世界各地收集的 10,000 张手动编码的面部图像上进行训练，用于为每个面部动作提供从 0 到 100 的分数。有关训练和测试方案的详细信息，请参见 [8]。
表 2：SDK 检测到的面部动作。每个动作的分数从 0（不存在）到 100（存在）。*傻笑被定义为不对称的唇角拉扯（在脸的右侧或左侧，但不能同时在脸部两侧）

表 2：SDK 检测到的面部动作。每个动作的分数从 0（不存在）到 100（存在）。*傻笑被定义为不对称的唇角拉扯（在脸的右侧或左侧，但不能同时在脸部两侧）
情感表达
情绪表达（愤怒、厌恶、恐惧、喜悦、悲伤、惊讶和蔑视）基于面部动作的组合。该编码建立在 EMFACS [4] 情绪面部动作编码系统之上。情绪表达的分数从 0（不存在）到 100（存在）都有类似的分数。
表 1：AFFDEX SDK 检测到的情绪表达。每种情绪的分数从 0（不存在）到 100（存在）。

表 1：AFFDEX SDK 检测到的情绪表达。每种情绪的分数从 0（不存在）到 100（存在）。
性别和眼镜
除了面部动作和情绪表达分类器外，SDK 还具有用于确定性别和人是否戴眼镜的分类器。
分类器有两种操作模式：静态和因果。静态分类器允许对单个图像进行分类。因果分类器利用视频序列中可用的时间信息来进一步提高面部表情测量的准确性。

性能评估

该系统在一组独立的10,000张图像上进行了测试，以验证算法的通用性。我们没有控制参与者的灯光或姿势。图 2 显示了示例帧。
图 2：从来自超过 75 个国家/地区的世界上最大的面部视频数据集中拍摄的示例图像，这些视频在非常多样化的照明和环境中拍摄

图 2：从来自超过 75 个国家/地区的世界上最大的面部视频数据集中拍摄的示例图像，这些视频在非常多样化的照明和环境中拍摄

AFFDEX SDK

我们创建了一个软件开发工具包（SDK），以便将软件轻松集成到其他应用程序中。可用的硬件会影响每秒可以处理的帧数。通常，在移动设备上可以实现 10 帧/秒（FPS）的帧速率，在笔记本电脑/台式机设备上可以实现 30 FPS 的帧速率。我们的演示将允许用户获得有关其面部表情的实时反馈。图 3 显示了我们演示的移动界面示例。参与者将能够尝试与iPad和Android平板电脑进行交互。图 4 显示了桌面演示，该演示将允许用户在更大的屏幕上测试多面孔功能。

图 3：iOS SDK 演示应用截图
图 4：实时多人脸表情分类 SDK 演示应用截图

图 4：实时多人脸表情分类 SDK 演示应用截图

应用

情绪感知为以下方面提供了巨大的潜力
改善人机交互和人与人交互。以下是 SDK 支持的一些新兴应用场景。
视频会议：非语言暗示对于有效沟通至关重要。在远程交互中，这些线索会丢失。能够恢复情感信号的系统将使远程通信更容易。
自动化导师/在线教育：随着远程学习变得越来越流行，自动测量学习者的情绪状态变得越来越重要。访问情感数据可以帮助教育工作者提高内容质量。
生活记录和健康：情绪影响着我们日常生活的方方面面。然而，我们往往难以反思自己的情绪状态。有助于跟踪情绪的生活记录工具和设备将非常有用[5,7,9]，并将提供一种将生活方式模式与情绪变化联系起来的方法。
游戏：对人类情感做出反应的电脑游戏为游戏提供了一个新的维度，角色可以自然地适应玩家。

结论

我们相信，情感传感软件的可用性将对连接设备和接口的设计产生重大影响。我们的SDK为多个平台提供最先进的实时多面部表情分析

参考

Brave, S., and Nass, C. 2003. “Emotion in human–computer interaction.” Human-Computer Interaction: 53.
Dalal, N. and Triggs, B., 2005, June. Histograms of oriented gradients for human detection. In Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer Society Conference on (Vol. 1, pp. 886-893). IEEE.
Ekman, P. and Friesen, W. 1978. “Facial Action Coding System: A technique for the measurement of facial movements.” Consulting Psychologist.
Friesen, W. and Ekman, P. 1983. “EMFACS-7: Emotional facial action coding system.” Unpublished manuscript, University of California at San Francisco 2: 36.
McDuff, D., Karlson, A., Kapoor, A., Roseway, A., and Czerwinski, M. 2012. “AffectAura: an intelligent system for emotional memory.” In Proc of CHI ‘12.
McDuff, D., Kaliouby, R. and Picard, R. 2012. “Crowdsourcing facial responses to online videos.” Affective Computing, IEEE Transactions on 3.4: 456-468.
Picard, R., Affective computing. MIT press, 2000.
Senechal, T., McDuff, D. and Kaliouby, R., 2015. “Facial Action Unit Detection Using Active Learning and an Efficient Non-Linear Kernel Approximation.” In Proc. ICCV IEEE `15.
Ståhl, A., Höök, K., Svensson, M., Taylor, A., and Combetto, M. 2009. “Experiencing the affective diary.” PERS UBIQUIT COMPUT, 13.5: 365-378.
Viola, P. and Jones, M. 2001. “Rapid object detection using a boosted cascade of simple features.” PROC CVPR IEEE ‘01.