AI 脸部辨识情绪市场庞大人类的情绪如何用机器解读？

AI脸部辨识情绪已形成规模达200亿美元的产业，应用于多行业。其主要通过计算机视觉和机器深度学习技术实现，Affectiva公司的Affdex情感引擎是代表。但该技术面临争议，如标签化引导表情、存在种族歧视等问题，不过更严谨的技术仍值得期待。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

愤怒、厌恶、恐惧、快乐、悲伤、惊讶……你脸上的表情，现在正变成「情绪经济」。

当你疲劳驾驶，失神或焦躁情绪将被车子辨识警告；用平板学习时有困难，平板会读取你「困惑」的情绪，并放慢教学速度；当卖出一个商品，你可以透过消费者脸部情绪快速评估产品的效果……

《卫报》称，「AI 脸部辨识情绪」已成为规模 200 亿美元（约台币 6,210 亿元）的业产，且还在扩充。早在 2009 年，第一家经营「人工情绪智慧」的公司 Affective 就已经将情绪检测技术当成市场研究产品出售。

包括检测机械员工损伤、影像游戏用户体验、协助医护人员评估患者健康等各行各业，围绕它的领域都在持续增长，亚马逊、微软和 IBM 也将「情绪分析」当成脸部辨识产品的主要功能去宣传。Affective 创始人 Kaliouby 预测，不久的将来，当这项技术无处不在、并融入所有装置时，能「利用我们的内心、潜意识瞬间反应」。

冰冷的机器如何辨识人类情绪？

目前，情绪检测主要透过两种技术，一是计算机视觉，精确辨识脸部表情，二是机器深度学习技术，分析和解释脸部特征的情绪内容。身为最早由「情绪经济」获利的公司，Affectiva 的核心技术是名叫 Affdex 的情感引擎。Affdex 启动后，镜头会锁定人脸，透过观察表情的纹理、肌肉和变化，「编码」人类五官的特征点，并和图像数据库比对，进而确认你的情绪并回应。Affectiva 的网站拥有世界最大的情感数据储存库，这也是情绪检测进展快速的原因。

这些数据大部分都是从人们收看电视或每天开车上下班的选择性录像去收集，涵盖 87 个国家不同年龄、性别、种族的超过 750 万张脸孔。当收集到人们影像后，Affective 办公室的 35 名「标记人员」会分类，例如人们表现出低垂的眉毛、紧绷的嘴唇和凸起的眼睛，就会贴上「愤怒」。

这些被标记的人类情绪数据用来训练 SBF999Affective 的算法。

当「快乐」、「愤怒」、「悲伤」等标签的脸谱图成千上万，Affective 也就能将情绪辨识和联系处理得越来越精准，甚至能判断你是否隐藏情绪。

这种标记方法被很多情绪检测业的人认为是检测情绪的黄金标准，这来源于「情绪脸部动作编码系统 Emfacs」，整个 20 世纪下半叶都视为经典的情绪理论，使用在美国中情局、联邦调查局、海关、边境保护等地方。美剧《谎言终结者》透过人脸表情来探测案件真相的灵感也来源于此。但就像所有新技术都有两面性，情绪检测，同样也面临争议和质疑。

读懂情绪不简单

强烈而持久的反面声音是美国东北大学的心理学教授 Lisa Feldman Barrett 提出。

她表示，「提供人们选定的情绪标签，会在无意中引导人们表现出相对应的表情」，因为「固定的标签」几乎和「刻板印象」画上等号。通俗点说，标签化的情绪就像 emoji 表情。

最近还有一项研究表明，情绪辨识会产生种族歧视，且去年就有研究显示情绪检测技术时，黑人的负面情绪比白人多，情绪辨识也被认为「有偏见的缺陷」。Barrett 和一组同事重新测试验证。测试过程中他们不提供情绪标签，而是让测试者看到图像时自由描述图像的情绪，发现特定脸部表情和特定情绪之间的相关性直线下降。

后来 Barrett 在她的书《情绪是如何产生的：大脑的秘密生活》阐述自己的情绪理论。她认为大脑没有外部刺激触发的普遍情绪，每次情绪体验都是由内部更基本的部分构成。

（情绪）是人类身体物理特性的结合，灵活的大脑将它们连接到自身所处的任何环境，根据每个人的文化水平和成长环境都会有所不同。

情绪丰富且复杂。

所以将脸部表情直接映像到所有文化和背景的情感都没有意义，一个人可能生气时皱眉，另一个人可能在谋害对手时礼貌微笑；一个人可能喜欢受挫时得到暖心的励志谈话，另一个人也可能希望有个能怒吼的地方发泄。Barrett 表示：

评估情绪最好理解为动态实践，这涉及自动认知过程，人与人之间的互动，个人经验和文化能力。

Affective 创始人Kaliouby 也同意这个说法，并不断改善数据的多样性，用影像、语音、步态及更多微小变化来达到更准确的结果。毕竟像「情绪」这贯穿人们每时每刻生活的东西，如果不准确的分析在社会、工作时采用，并让人们得到恶劣结果，短期是一时不公平的物质伤害，长期则足以积累影响整个人生。技术确实能让生活变得更好，但在真实生活面前，依然是沧海一粟；不过更严谨的情绪检测技术依然值得期待。