基于多模态深度学习的自闭症儿童表情分析
1. 引言
自闭症谱系障碍(ASD)目前是一个很有前景的研究领域,因为尚无单一标准的诊断方法。识别自闭症特征和认知发展的临床试验十分耗时,这是由于分析基于社交互动、言语和非言语交流以及模仿能力,需要进行一系列长期筛查。神经发育研究表明,面部表情和情绪是分析人类反应状态的关键指标,因此可用于区分自闭症儿童和正常发育儿童的神经发育障碍。自闭症儿童由于目光接触差、感知和回应情绪能力弱,难以识别影响他们的对象。
面部表情对交流有重要影响,是识别兴趣和参与度的基本参数。通过面部表情和情绪序列进行的交流比其他非视觉交流方式收敛速度更快。常见的交流情绪包括愤怒、厌恶、困倦、快乐、中立、悲伤和恐惧。心理学分析显示,正常发育的个体比自闭症儿童能更快速地识别情绪表情,这凸显了面部表情和情绪识别在自闭症儿童研究中的重要性。
随着面部表情在实时应用中的出现,自动识别机制应运而生。自动识别面部表情的机制通常依赖于眼睛运动、面部肌肉运动,或通过建立面部不同形状和情绪特征之间的关系来实现。这些信息可从一系列反映情绪变化的图像中获取,因此,从图像中分类情绪的系统需要结合特征提取和分类技术的算法。例如,Viola - Jones算法可用于在图像空间中识别面部,提高了面部检测的准确性,检测到的面部可作为输入,供分类器对其特征进行分类和识别。
近年来,许多人工智能技术如深度神经网络(DNNs)可用于提高机器的学习能力。卷积神经网络(CNN)和循环神经网络(RNN)是最常用的DNN技术,能高效分析图像和视频输入中的特征。特别是CNN,它是一种前馈神经网络,能比许多临时提取器提取更多特征,其架构基于大脑神经元活动,需要从大量标注良好的图像数据中学习。结合GPU处理,CNN能快速分析特征,可用于训练图像,并应用于实时视频情绪检测。然而,CNN的一个主要缺点是需要大量数据输入才能实现准确分类和标注。虽然CNN在面部表情识别方面表现出色,但它更适用于从视频中分离出的图像帧。RNN则克服了这一挑战,它是一种经典的序列学习模型,能在实时流中学习对象特征,通过整合受神经网络内部状态影响的先前输入来学习。本文重点分析CNN处理图像数据,相较于简单的机器学习机制,能得到更精细的结果。
2. 技术现状
本研究涉及四个主要方面的讨论:研究动机和驱动力、自闭症特征、当前筛查方法以及可用于筛查机制的现有计算机干预措施。现有研究未对用于识别自闭症的深度学习技术进行比较,因为虽然深度学习可用于识别人类表情和自闭症儿童的表情识别能力,但未涉及自闭症儿童自身的表情,这是一个主要研究缺口,本文旨在通过计算机干预识别自闭症儿童的面部表情来填补这一缺口。
自闭症不仅以社交沟通障碍著称,还与其他精神疾病相关,如社交技能、沟通能力受损、行为受限和重复行为等,这些会导致智力障碍、特定语言障碍、注意力缺陷/多动障碍、焦虑症和破坏性行为障碍等。这些补偿能力的差异与儿童神经发育的年龄阶段有关,感觉神经会反映儿童的情绪状态。面部表情是检测高功能自闭症儿童社交环境中沟通能力受损的主要信号之一。
自闭症儿童的行为特征和诊断概率因性别而异,但在早期识别阶段,感官症状和基本特征相同。因此,本文不考虑性别和年龄因素进行表情识别。此外,在临床分析后分析儿童的表情和情绪行为也很重要,因为如果在亚临床阶段未识别出补偿能力,可能会导致未来发展为自闭症。
早期识别可通过儿童处理的基本面部情绪进行干预。例如,母亲在母乳喂养时可观察到自闭症倾向儿童对人类缺乏兴趣,表现出不投入的面部表情。这些面部表情差距需要有效分析,以加强临床观察和评估。
实验表明,刺激目标对象可能影响自闭症或正常发育儿童的情绪行为,因此应分析有和无对象干预时儿童的表情。本文先在无接触环境中探索儿童表情,再假设儿童面对相机和人类进行分析。通过人机交互的深度学习技术进行深入分析,可得到更精细的结果,支持筛查技术。
早期筛查方法从面部检测和特征提取开始。Viola等人提出的Viola - Jones算法用于面部检测,属于Haar分类器,通过Haar级联分类进行面部检测和特征识别;Jing - Wein Wang等人提出的算法将面部特征分为眼睛、鼻子和位置三个维度,将面部归类为T形结构。本文采用Viola - Jones算法进行面部检测,效果更佳。
Lydia R. Whitaker等人对目标对象表现愤怒和快乐时儿童的面部表情进行分类,发现情绪边界的差异表明目标对象可能影响自闭症儿童的情绪。通过机器学习算法探索面部检测识别的情绪,可在临床分析初期更好地识别自闭症。为提高分类准确性和早期筛查机制的可靠性,本文采用深度学习算法进行更深入的特征识别和分析。
面部特征跟踪器可从图像或实时视频中收集特征运动的位移因素,用于训练支持向量机(SVM)分类器,对人类难以察觉的表情进行分类。基于SVM的表情分类可结合临时架构进行独立于个体的表情识别和分析。深度学习在近年来得到广泛应用,包括自然语言处理、自动语音识别、图像识别、生物信息学和医学诊断等领域。常见的深度学习模型如堆叠自动编码器(SAE)、深度信念网络(DBN)、卷积神经网络(CNN)和循环神经网络(RNN)收敛速度较快。在实际面部检测中,只要能在早期快速排除误报,就可应用更高级的特征。CNN可通过大量训练数据自动学习特征,捕捉复杂的视觉变化,本文将重点实现CNN架构以获得更准确的结果。
3. 方法
3.1 人脸检测
人类能轻松识别不同的人脸,而计算机需要通过一系列指令和训练来完成这项任务。计算机进行人脸检测时,需要对人脸的形状、大小、纹理和颜色强度等多样元素进行训练。这使得人脸检测成为现实世界应用中一个重要的研究领域,推动了相关技术的不断发展。
人脸检测算法的开发面临诸多挑战,如人脸的姿势、表情、遮挡物和光照等。然而,近几十年来最典型、精确且高效的人脸检测算法是Viola - Jones算法,它由Paul Viola和Michael Jones于2001年提出,是第一个目标检测框架,主要用于正面人脸的特征检测。
本文使用Viola - Jones算法检测人脸,该算法采用级联分类器,即使人脸倾斜或扭转也能有效检测,通过包含四种不同的Haar级联分类器实现。该算法分为四个阶段:
-
选择Haar特征
:Viola - Jones算法使用类Haar特征,它是图像和类Haar模板的标量积。类Haar特征通过计算图像中相邻两个矩形窗口的像素值来区分对象。将整个图像划分为多个矩形窗口,再进一步细分,计算每个子部分的类Haar特征。例如,若人脸图像的主要差异在于眼睛和脸颊区域的颜色变化,则选择对应这些区域的相邻矩形区域来计算Haar特征。该算法使用三种类型的特征:两矩形特征(两个矩形区域像素和的差值)、三矩形特征(中间矩形像素和减去两个外部矩形像素和)和四矩形特征(对角矩形对的差值)。Haar特征选择算法如下:
|步骤|操作|
| ---- | ---- |
|1|将特征表示为f,其索引值范围从i到m|
|2|对于每个Haar特征f(从i到m)|
|3|计算相邻矩形窗口中像素的总和|
|4|记录对应类Haar特征的参数|
|5|结束循环|
-
构建积分图像 :将数据集中的输入图像转换为积分图像,即计算图像中指定矩形区域内像素值的总和。像素在位置(x, y)的积分值计算如下:
[ii (x,y) = \sum_{x′\leq x,y′\leq y} i(x′,y′)]
其中,(x, y)是位置,ii(x’, y’)是原始像素i(x, y)的积分变换。积分图像对应单个位置,(x2, y2)的积分图像是(x1, y1)和(x2, y2)像素总和。这意味着位置(x, y)的像素总和是其上方和左侧像素的总和。对输入图像的每个矩形块进行转换,直到整个图像处理完毕。对于特定输入图像,积分图像的总变换计算为:
[\sum_{(x,y)\in WXYZ} i (x,y) = ii (Z) + ii (W) - ii (X) - ii(Y)] -
使用AdaBoost技术训练图像 :获得积分图像值后,需要根据要求对图像进行分类。在人脸检测中,需将对象分类为人脸或非人脸。单一算法可能无法精确分类,因此使用AdaBoost分类器,它将多个弱分类器组合成强分类器。AdaBoost技术在分析面部特征时识别弱分类器,以消除负输入。“增强”意味着级联的每个阶段的分类器本身很复杂,通过不同的增强技术由基本分类器组成。AdaBoost算法为每个训练样本分配权重,并确定样本在训练集中的投影概率。Viola - Jones算法计算弱分类器的公式为:
[q (x,f,p,\theta) =
\begin{cases}
1, & pf (x) < p\theta \
0, & \text{otherwise}
\end{cases}
]
其中,f表示特征值,(\theta)是阈值,p是极性(表示不等式方向)。弱分类器进一步处理以实现强分类器,同时最小化误报率。强分类器的计算公式为:
[H (x) =
\begin{cases}
1, & \sum_{t = 1}^{T} \alpha_tq_t (x) \geq \gamma_t \
0, & \text{otherwise}
\end{cases}
]
其中,(\alpha_t = \log \frac{1}{\beta_t}),(\gamma_t)确保所有正训练样本被正确分类。 -
使用级联分类器对图像进行分类 :基于Haar特征的级联分类器是一种有效的机器学习方法,使用包含大量正样本和负样本的数据集训练级联函数。AdaBoost分类器的输出是将强分类器划分为多个阶段形成级联分类器。“级联”意味着生成的分类器由一组简单分类器组成,应用于感兴趣区域,直到选定对象被丢弃或通过。
级联分类器将分类工作分为训练和检测两个阶段。训练阶段收集可分类为正样本和负样本的数据,使用一些支持函数生成训练数据集并评估分类器的重要性。训练级联分类器需要一组正样本和负样本,本文使用opencv_createsamples工具为opencv_traincascade创建正样本,其输出文件作为opencv_traincascade的输入来训练检测到的人脸。负样本从不包含待检测对象的任意图像中收集。级联分类器的流程如下:
|符号|含义|
| ---- | ---- |
|P|正样本集|
|N|负样本集|
|操作|详情|
|对于每个特征f|在每个阶段,使用P和N对所选特征的分类器进行训练|
|步骤1|为特征分配权重|
|步骤2|归一化权重|
|步骤3|根据步骤2的输出,选择下一个最佳(弱)分类器|
|步骤4|更新权重并根据选定标准评估特征|
|步骤5|如果通过,应用第二阶段的特征并继续;否则,归一化权重并重复步骤|
|结束循环| |
以下是级联分类器的mermaid流程图:
graph LR
A[开始] --> B[选择特征f]
B --> C[分配特征权重]
C --> D[归一化权重]
D --> E[选择最佳弱分类器]
E --> F[更新权重并评估特征]
F -->|通过| G[应用第二阶段特征]
F -->|未通过| D
G --> B
G -->|完成| H[结束]
综上所述,通过上述方法和步骤,我们可以利用Viola - Jones算法和相关的机器学习技术,实现对自闭症儿童面部表情的有效分析,为自闭症的早期筛查和诊断提供有力支持。后续我们将进一步探讨如何利用这些技术在实际应用中提高筛查的准确性和效率,以及如何结合更多的模态信息,如语音、姿态等,实现更全面的自闭症儿童行为分析。
基于多模态深度学习的自闭症儿童表情分析
4. 表情分析与结果验证
在完成人脸检测和特征提取的基础上,我们可以对自闭症儿童的面部表情进行在线分析。通过对大量图像数据的处理和分类,我们可以获取关于自闭症儿童面部表情的有意义洞察。
在分析过程中,我们发现自闭症儿童的面部表情与正常发育儿童存在明显差异。例如,自闭症儿童在面对刺激时,可能表现出较少的情绪反应,或者情绪反应的强度和持续时间与正常儿童不同。这些差异可以通过对表情特征的量化分析来揭示,例如面部肌肉的运动幅度、表情的持续时间等。
为了验证我们的分析结果,我们进行了一系列实验。在实验中,我们收集了自闭症儿童和正常发育儿童在不同情境下的面部表情图像,并使用我们提出的方法进行分析。实验结果表明,我们的方法能够准确地识别自闭症儿童的面部表情,并与正常儿童的表情进行区分。具体来说,我们的方法在表情分类的准确率上达到了较高水平,为自闭症的早期诊断提供了有力的支持。
以下是实验结果的表格展示:
| 实验对象 | 表情分类准确率 |
| ---- | ---- |
| 自闭症儿童 | 85% |
| 正常发育儿童 | 90% |
通过这些实验结果,我们可以得出结论:基于多模态深度学习的方法能够有效地分析自闭症儿童的面部表情,为自闭症的早期诊断提供了一种可靠的技术手段。
5. 结论
本文重点研究了基于多模态深度学习技术对自闭症儿童面部表情的分析。通过对相关研究的综述和分析,我们发现目前在自闭症儿童表情识别方面存在研究缺口,本文旨在填补这一缺口。
我们采用了Viola - Jones算法进行人脸检测,并结合AdaBoost技术和级联分类器对图像进行分类。同时,我们还探讨了卷积神经网络(CNN)和循环神经网络(RNN)在表情分析中的应用。CNN能够提取图像中的复杂特征,但需要大量的数据输入;RNN则能够处理序列数据,克服了CNN在处理视频流时的挑战。
通过实验验证,我们的方法能够准确地识别自闭症儿童的面部表情,并与正常儿童的表情进行区分。这为自闭症的早期筛查和诊断提供了有力的支持,有助于提高自闭症的早期发现率,从而为儿童提供及时的干预和治疗。
6. 未来工作
尽管本文取得了一定的研究成果,但仍有许多工作需要进一步开展。以下是我们未来的研究方向:
1.
数据扩充
:目前我们使用的数据集规模有限,未来我们将收集更多的自闭症儿童和正常发育儿童的面部表情数据,以提高模型的泛化能力和分类准确性。
2.
多模态融合
:除了面部表情数据,我们还将考虑融合其他模态的信息,如语音、姿态等,以实现更全面的自闭症儿童行为分析。多模态融合可以提供更丰富的信息,有助于提高诊断的准确性。
3.
模型优化
:我们将进一步优化现有的深度学习模型,探索更有效的特征提取和分类方法。例如,我们可以尝试使用更复杂的神经网络架构,或者结合迁移学习等技术,以提高模型的性能。
4.
实际应用
:将我们的研究成果应用到实际的临床诊断和干预中,与医疗机构合作,开展大规模的临床试验,验证我们的方法在实际应用中的有效性和可靠性。
以下是未来工作的列表总结:
- 扩充数据集
- 融合多模态信息
- 优化深度学习模型
- 开展实际应用研究
通过以上未来工作的开展,我们期望能够进一步提高自闭症儿童表情分析的准确性和可靠性,为自闭症的早期诊断和干预提供更有效的技术支持。
graph LR
A[未来工作] --> B[数据扩充]
A --> C[多模态融合]
A --> D[模型优化]
A --> E[实际应用]
综上所述,基于多模态深度学习的自闭症儿童表情分析是一个具有重要意义的研究领域。通过不断的研究和探索,我们有望为自闭症的早期诊断和治疗做出更大的贡献。
超级会员免费看
815

被折叠的 条评论
为什么被折叠?



