文章目录
Deep Neural Networks for Depression Recognition Based on 2D and 3D Facial Expressions Under Emotional Stimulus Tasks
基于情绪刺激任务下二维和三维面部表情的深度神经网络抑郁识别
论文小结
论文工作构建了一个大规模的抑郁症数据集(不公开,“大规模”?实验组52名男性和52名女性;对照组52名男性和52名女性的数据,或者包含的每个人的数据比较大吧?)
论文提出了一个结合2D图像和3D图像的面部识别网络,其中网络基本结构为深度信念网络(DBN)模型,2D图像通过面部裁剪送入模型,3D的取特征点送入模型,代码不公开。在公开数据集上,相比于已有的方法,是否因为数据质量原因?该方法并没有多大的提升。
论文再次验证该观点:抑郁症患者比健康个体具有更少的积极情绪和更多的消极情绪
总的来说论文用新的数据做了验证实验
摘要
随着全球人口的增长,抑郁症患者的比例沿着迅速增加。抑郁症是目前最普遍的心理健康障碍。有效的抑郁症识别系统对于早期发现潜在的抑郁症风险尤为重要。与抑郁症相关的数据集在评估抑郁症或潜在抑郁症风险检测系统时也至关重要。由于临床数据的敏感性,此类数据集的可用性和规模是稀缺的。据我们所知,中国人群中广泛实用的抑郁症数据集很少。在这项研究中,我们首先通过要求受试者执行五个情绪诱导任务来创建一个大规模的数据集。在每个任务之后,通过Kinect收集受试者的音频和视频,包括面部表情的3D信息(深度信息)。所构造的数据集来自真实的环境,即几家精神病医院,并有一个特定的规模。然后,我们提出了一种新的方法来识别潜在的抑郁症风险的基础上两种不同的深度信念网络(DBN)模型。一个模型从光学相机收集的面部图像中提取2D外观特征,而另一个模型从Kinect收集的3D面部点中提取3D动态特征。最后将两种模型相结合得出最终的决策结果。最后,我们在构建的数据集上评估所有提出的深度模型。实验结果表明:(1)本文提出的方法能够识别出潜在抑郁风险的患者;(2)二维和三维特征模型相结合的识别性能优于仅使用二维或三维特征模型的识别性能;(3)抑郁症识别性能在积极和消极情绪刺激下均较高,且女性的识别率普遍高于男性。 同时,我们在相同的数据集上与其他方法的性能进行了比较。实验结果表明,本文提出的二维和三维特征集成DBN方法比其他方法更合理、更通用,设计的抑郁症实验范式合理、实用。
介绍
根据世界卫生组织(WHO)的数据,全球有超过3.5亿所有年龄段的人患有抑郁症(Reddy,2012)。抑郁症(抑郁症或临床抑郁症)是全球最严重但最普遍的精神障碍之一。抑郁症可以导致严重的损害,干扰或限制一个人进行主要生活活动的能力至少2周。在至少2周的时间里,患者要么情绪低落,要么失去兴趣或快乐,以及至少4种反映功能变化的其他症状,如睡眠、饮食、精力、注意力、自我形象问题,或反复出现死亡或自杀的想法。抑郁症可以发生在任何年龄,儿童和青少年的病例已报告 1 ^1 1。由于抑郁症的危害性和近年来的流行性,抑郁症越来越受到社会各界的关注。
虽然抑郁症很严重,但可以通过药物治疗、心理治疗和其他临床方法治愈(国家精神卫生合作中心,2010年)。治疗开始越早,效果越好。因此,抑郁症的早期发现对于在初始阶段控制它并减少与这种疾病相关的社会和经济负担至关重要。抑郁症的传统诊断方法主要基于患者在临床访谈中的自我报告、亲戚或朋友报告的行为以及问卷,如患者健康问卷(PHQ-9)(Kroenke和Spitzer,2002)和贝克抑郁量表(BDI-II)(麦克弗森和Martin,2010)。然而,所有这些都利用主观评级,他们的结果往往是不一致的,在不同的时间或在不同的环境。 在诊断过程中,必须有多名临床专家参与,才能获得相对客观的评估。随着抑郁症患者数量的增加,早期诊断和跟踪治疗效果的重新评估往往是有限的,而且耗时。因此,基于机器学习的自动潜在抑郁风险检测或抑郁识别有望促进客观快速的诊断,以确保卓越的临床护理质量,并从根本上减少真实的生活中的潜在危害。
在抑郁症的影响下,用于抑郁症识别的基于行为障碍的信号越来越广泛,例如声音(Ooi等人,2013年; Yang等人,2013; Nicholas等人,2015年; Jiang等人,2017),面部表情(Schwartz等人,1976; Babette等人,2005)、手势(Alghowinem等人,2018),步态(Michalak等人,2009; Demakakos等人,2015)和眼球运动(Winograd-Gurvich等人,2006; Alghowinem等人,2013年; Carvalho等人,2015年)。这项工作的重点是使用面部表情来识别具有潜在抑郁风险的患者。基于面部表情的抑郁症研究基本上利用视频或图像(Gupta等人,2014; Alghowinem,2015; Pampouchidou等人,2015,2016 a; Bhatia等人,2017年)。 更准确地说,兴趣被定位在图像、面部标志点(Stratou等人,2014年; Moglobal等人,2015; Nasir等人,2016; Pampouchidou等人,2016 b)和/或面部动作单位(AU)(Cohn等人,2009; McIntyre等人,2009;威廉姆森等人,2014年)的报告。然而,采用图像分析的方法(基于视频的方法的本质是将视频转换为图像的静态图像分析)受环境因素和仪器参数(例如照明、角度、肤色和分辨率)的影响。如果这些因素没有得到适当的解决,识别性能将受到影响。几位研究人员(Gong等人,2009; Zhao等人,2010)提出了使用从3D传感器捕获的深度信息,其是相对照明、角度和肤色不变的。 然而,3D点的信息可能会丢失面部表情的纹理特征。因此,2D与3D数据的融合可以相互弥补,以解决这些问题。
抑郁症识别通常包括两个步骤:特征提取和识别(抑郁与否/抑郁严重程度)。特征提取的质量直接影响识别的效果。传统的抑郁症面部表情特征提取方法利用几何特征、外观特征和动态特征。这些方法提取面部边缘、拐角、坐标的位移(McIntyre等人,2010年; Bhatia等人,2017),所有嘴部界标到嘴部质心的均方距离(Gupta等人,2014),以及从中间水平轴的位移来描绘基本表达的变化和强度(Bhatia,2016)。局部二进制模式(LBP),LBP-TOP(Joshi等人,2012)、局部Gabor二进制模式(LGBP-TOP)(Sidorov和Minker,2014)、局部曲波二进制模式(LCBP-TOP)(Pampouchidou et al.,2015)和来自三个正交平面的LPQ(LPQ-TOP)(Wen等人,2015)提取的描述面部区域中的纹理变化。光流直方图(Gupta等人,2014)、运动历史直方图(MHH)(Meng等人,2013)和时空兴趣点(STIP)(He等人,2015)被提取以描述面部运动。这些结果表明,抑郁的人表现出较低的性能时,积极和消极的情绪内容作出反应。然而,所有这些方法都是基于大量专业知识设计的手工特征描述符,并且对于手工特征的图像处理也是复杂的。然而,我们对抑郁症的认识仍然不足。这样的功能可能会产生面部表情的分段表示,是不够的歧视。 同时,从视频中提取动态,这涉及到上述环境因素的影响。另一方面,时间窗用于提取运动特征(Pampouchidou等人,2016 a; He等人,2018年)。报告的窗口长度为60帧、20帧、5帧甚至300帧。然而,不能确定最佳窗口长度,因为根据特定的人和实验设备,面部表情随着时间的推移存在显著的变化。
近年来,深度学习技术已经在基于音频和视频的应用中盛行,特别是在视觉信息处理中(Girshick等人,2014年)的报告。本研究的目的是识别有抑郁风险的患者。所选受试者为门诊患者,评价抑郁程度为中度。抑郁风险组和正常对照组的许多样本在某些刺激任务中没有明显的表达变化。因此,我们选择了生成模型深度信念网络(DBN)。基于DBN的深度学习方法可以从原始数据中分层学习良好的表示;因此,对于抑郁症识别,学习的面部特征应该比手工制作的特征更具鉴别力。长短期记忆(LSTM)是一种有效且可扩展的模型,用于与序列数据相关的学习问题,并可以捕获长期的时间依赖性。 面部表情是一个不断变化的动态过程,是一个时间轴上的时序信号。然后通过在整个时间轴上使用的LSTM捕获面部表情运动。
临床数据的可用性对于评估抑郁症识别方法至关重要。由于临床数据的敏感性和隐私原因,抑郁症研究的数据集既不广泛也不免费。这就是为什么大多数研究小组都采用生成数据集的方法。目前的数据集如下:Pittsburgh,BlackDog,DAIC-WOZ,AVEC,ORI,ORYGEN,CHI-MEI和EMORY,但只有其中三个可用。AVEC是唯一可供免费下载的完全公开的数据集,DAIC-WOZ是部分可用的,而匹兹堡也是可用的,但现在无法访问。其余抑郁症相关数据集均为专有数据集,相关研究成果较少。上述安全数据集提供第三方视觉和音频功能。只有AVEC披露完整的录像记录。 然而,这些数据集是从非中国受试者收集的,由于不同的文化背景,这些受试者在情感表达方面与中国受试者存在差异。因此,我们采用结构化的实验范式,与相关精神病医院合作,构建了一个专门针对中国受试者的抑郁症数据库。据我们所知,我们建立的数据库是目前国内唯一一个数据完整、结构合理、受试者数量最多的数据库。我们的数据集包括来自典型网络摄像头和麦克风的完整视频记录,以及来自深度相机Kinect的3D 1347个面部点扫描(Leyvand等人,2011年)的报告。Kinect不仅可以检测人脸,还可以实时访问3D空间中的1000多个面部点,而无论皮肤颜色或周围环境、照明或与摄像头的距离如何。
本文建立在我们以前的工作(郭等人,2019)通过增加二维静态图像信息和三维面部点运动信息来识别抑郁症,是对原有工作的进一步完善和总结。我们分别构建了两个不同的深度网络,其中一个基于DBN使用2D图像提取静态外观特征,另一个使用DBN-LSTM通过3D面部标志点和面部AU学习面部运动。然后通过联合微调将这两种深度网络整合在一起,可以进一步提高整体性能。因此,我们在本文中的主要贡献可以总结如下:
1.我们设计了合理有效的实验范式,结合专科医院收集了多元化的数据和三类样本(正常人群、门诊患者和住院患者),构建了一个大规模的抑郁症数据集。
2.提出的两个深度网络可以从2D图像中提取外观特征,并从3D面部标志点中提取运动特征。集成网络可以实现静态和动态特征的融合,从而提高识别性能。
3.我们定性和定量地证明了抑郁倾向组在正性和负性刺激下与健康组相比表现出显著差异。
下面简要介绍了基于面部表情的抑郁症识别的相关工作。在第3节中,我们介绍了所提出的抑郁症识别网络结构。数据集创建、实验设置、结果和分析在第4节中报告。最后,在第5节中提供了一些讨论和未来的工作。
相关工作
基于机器学习的抑郁症识别
用于抑郁症检测的机器学习工具可以访问临床医生用于诊断的相同信息流。例如,面部表情、手势、声音和语言的变化应该发生在交流模态中。情绪表达变异性降低常见于抑郁症,并与积极和消极情绪表达的缺陷有关(Rottenberg等人,2005年)的报告。在下文中,我们简要地总结了一些优秀的研究成果识别抑郁症的视觉线索。
Wang等人(2008)从58个二维面部标志形成的28个区域中提取几何特征,以表征面部表情变化。采用概率分类器逐帧传播概率,并创建概率面部表情轮廓。结果表明,抑郁症患者表现出不同的面部表情的趋势比健康对照组。Meng等人(2013)采用==运动历史直方图(MHH)==来捕获面部表情的运动信息。然后提取局部二值模式(LBP)和边缘方向直方图(EOH)特征,最后采用偏最小二乘法(PLS)进行预测。这些特征是从图像中提取的。Nasir等人(2016)采用从面部标志获得的感知动机距离和面积特征来检测抑郁症。使用基于窗口的特征表示来捕获大规模时间上下文结果。 Anis et al.(2018)开发了一种测量抑郁严重程度的可解释方法。利用面部标志点的重心坐标和头部三维运动的旋转矩阵提取运动学特征,采用多类支持向量机对抑郁症的严重程度进行分类。
上述方法是基于传统的机器学习方法来提取手工制作的面部表情特征描述符用于抑郁分析。一些研究还利用深度学习从原始视频记录中提取面部表情的高级语义特征,用于自动抑郁检测。Jan等人(2018)利用卷积神经网络(CNN)从面部表情帧中提取许多不同的视觉原始特征,而特征动态历史直方图(FDHH)则用于捕获特征的时间运动。Zhou等人(2020)提出了一种具有GAP层的DCNN回归模型,用于从面部图像中识别抑郁严重程度。对不同的人脸区域进行建模,然后将这些模型组合起来,以提高整体识别性能。 结果表明,不同抑郁程度患者的显著性区域多集中在眼周和额部。梅洛等人(2019)使用两个3D CNN对视频中捕获的全局和局部面部区域的时空依赖性进行建模,然后联合收割机将全局和局部3D CNN结合起来以提高性能。上面提到的基于CNN的方法需要大量的数据来训练模型。一旦数据量很小,就很容易陷入过拟合。通过比较现有研究的数据量与我们的方法,我们发现,最先进的研究使用了大约4,350分钟的基于视频的公开可用数据集,而我们使用的视频数据量只有大约2,080分钟。现有的研究表明,生成模型在低样本下具有比判别模型更好的分类效果(Ng和Jordan,2002)。因此,我们最终选择使用DBN模型。
DBN
DBN(欣顿等人,2006)是一种生成模型,使用多层特征检测神经元。它可以从原始输入数据中学习层次表示,并且可以通过逐层堆叠受限玻尔兹曼机(RBM)(Fischer and Igel,2012)并对其进行Greatening训练来有效地构建。在我们的研究中,采用Gaussian-Bernoulli RBM来使用实值可见单元来训练DBN的第一层;使用二进制隐藏单元来训练更高层。对于Gaussian-Bernoulli RBM,关节配置的能量函数如等式(1)给出。
E ( V , H ) = 1 2 σ 2 ∑ i = 1 m ( v 1 − a i ) 2 2 − 1 σ 2 ( ∑ i = 1 m ∑ j = 1 n w i j v i h j + ∑ j = 1 m b j h j ) ) ( 1 ) E(V,H)= \frac {1}{2\sigma ^ {2}} \sum _ {i=1}^ {m} \frac {(v_ {1}-a_ {i})^ {2}}{2} - \frac {1}{\sigma ^ {2}} (\sum _ {i=1}^ {m}\sum _ {j=1}^ {n}w_ {ij}v_ {i}h_ {j}+\sum _ {j=1}^ {m}b_ {j}{h} _j ))\quad(1) E(V,H)=2σ21i=1∑m2(v1−ai)2−σ21(i=1∑mj=1∑nwijvihj+j=1∑mbjhj))(1)
其中 a ∈ a∈ a∈ R D R^D RD和b∈R分别是可见和隐藏单元的偏差。 w i j ∈ R w_{ij}∈R wij∈R是可见单元和隐藏单元之间的权重,而m和n分别是可见单元和隐藏单元的数量。 σ \sigma σ是一个超参数。由于在同一层中的单元之间没有连接,因此条件概率分布由等式(2)和(3)给出。
P ( h j = 1 ∣ v ) = s i g m o i d ( 1 σ 2 ( ∑ i = 1 m w i j h j + b j ) ) ( 2 ) P( h_ {j} =1|v)=sigmoid( \frac {1}{\sigma ^ {2}} ( \sum _ {i=1}^ {m} w_ {ij} h_ {j} + b_ {j})) \quad (2) P(hj=1∣v)=sigmoid(σ21(i=1∑mwijhj+bj))(2)
P ( v i ∣ h ) = N ( a i + ∑ j = 1 n w i j h j , σ 2 ) ( 3 ) P( v_ {i} |h)=N( a_ {i} + \sum _ {j=1}^ {n} w_ {ij} h_ {j} , \sigma ^ {2} )\quad(3) P(vi∣h)=N(ai<