摘要
情绪表达在日常交流中起着特殊的作用,而检测情绪最重要的方法之一就是识别面部情绪状态。因此,自然人机交互的关键点是识别面部表情并根据感知到的情绪提供反馈。模型的实现涉及两个主要步骤。第一步是读取视频并将其转换为图像,然后对其进行预处理。接下来,结合三维卷积神经网络(3DCNN)和学习自动机(LA)对面部情绪识别率进行分类检测。本研究选择3DCNN的原因是该模型不会从图像中删除任何维度,并且考虑了动态图像中的时间信息,从而可以进行更高效和更好的分类。此外,3DCNN网络在计算反向传播误差时通过LA进行调整,既提高了模型的效率,又改善了SOAR模型的工作记忆部分。鉴于情绪识别的重要性,本文提出了一种基于深度学习和认知混合模型SOAR的面部情绪识别方法。该模型对面部情绪状态识别的准确率高达85.3%。为了比较模型的有效性,本研究将该模型与其他模型进行了比较。研究结果表明,该模型比其他模型具有更好的性能。
引言
面部表情识别(FER)是一个新兴的研究课题。FER利用计算机技术和图像处理来分析和识别面部表情的类型、强度和持续时间,并通过检测细微变化来揭示一个人的情绪状态。FER在医疗保健、安全、安全驾驶等领域的应用,推动了这些方法在人机交互中的验证。计算FER模拟人类面部表情编码技能。同样,基于深度学习和人工智能(AI)技术,FER方法已开发出边缘模块以确保效率和实时处理。为此,一些研究对FER的不同方面进行了探索。
情绪是决策和人际沟通中的一个重要驱动因素。随着近年来人机交互研究的增加,情绪计算已成为一个热门的研究主题,旨在开发能够理解和响应人类情感的计算系统。据研究,人与人之间的交流90%以上是通过不同的渠道传递的,而面部表情和肢体动作在其中发挥着独特的作用。情感在沟通中起着至关重要的作用。例如,皱眉通常是不满和不同意的标志。惊讶、喜悦和恐惧是人类对环境因素的自然反应。
Han等人(2024)提出了一种仿生模型,它模拟人脑功能,符合人类感知且能更好地解释生物特征。在生物学特征的基础上,开发了一种非线性神经网络来提取时序特征,可用于动态情绪分析。在Liu等人(2024)的研究中,他使用了具有混沌多分支结构的贝叶斯卷积神经网络进行这种诊断。该模型旨在解决不确定性问题,通过提高训练精度,使网络的决策变得更加确定。
理解面部表情可以帮助调节情绪反应,例如增强积极情绪或减少消极情绪状态,尤其是当刺激的面部表情与个人意图相匹配时。也就是说,当它与个人的监测努力相一致时。现有的研究通常使用两种分类方法:动态和静态。动态分类器[例如隐马尔可夫模型(HMM)]使用多个视频帧,并通过分析区域或提取特征的时间模式来进行分类。静态分类器根据特定视频帧的结果,将视频中的每一帧分类为一组面部表情。一般来说,这些方法首先提取图像的某些特征,然后在分类系统中进行分类,从而选择出情绪类别之一。从面部视频图像中自动识别情绪面临许多挑战,包括在图像中找到面部、定位眼睛、鼻子和嘴巴的位置,揭示面部及其组成部分在一定时期内的变化,并建立它们之间的关系。将这些变化与个人的情感表达相匹配非常困难,因为每个个体都有自己的变化,具体取决于环境和个体情况。
现有证据表明,人们有时在高兴时微笑,在悲伤时皱眉,生气时皱眉的频率更高。然而,人们与愤怒、厌恶、恐惧、喜悦、悲伤和惊讶的关系因文化、情境而异,甚至在同一情境中的不同个体之间也有所不同。此外,面部动作的类似组合会不同程度地表达不止一种情绪类别的情况。事实上,面部动作的某种组合,比如皱眉,通常传达的并非只是一种情绪状态。科学家们一致认为面部表情传达了广泛的信息,并且对于社交、情感或其他交流非常重要。
情绪状态识别
面部情绪识别
Höfling等人(2023)使用自动面部编码技术研究了面部动作(即动作单元活动)与广告、宣传和品牌效应之间的关系。在Ma等人(2022)的研究中,为了确定中国人对亚洲人(自己种族)和白人(其他种族)面部表情(中性、快乐、悲伤、愤怒、厌恶和恐惧)的识别准确性和注视模式是否不同,89名健康的中国成年人在眼动追踪期间观看了亚洲和白人的面部表情,然后被要求识别表情并对其强度和唤醒效果进行评分。研究结果表明,受试者对亚洲面孔的悲伤表情的识别比白人面孔更好。另一方面,对白