深度学习视听抑郁识别综述笔记:Deep learning for depression recognition with audiovisual cues: A review


Deep learning for depression recognition with audiovisual cues: A review

深度学习用于视听线索的抑郁症识别:综述

摘要

随着工作和生活节奏的加快,人们面临的压力越来越大,这就增加了患抑郁症的概率。然而,由于全球医患比例严重失衡,很多患者可能无法得到及时诊断。一个很有希望的进展是生理和心理学研究发现抑郁症患者和健康人在言语和面部表情上有一些差异。因此,为了改善当前的医疗保健,深度学习(DL)已被用于从音频和视频中提取抑郁线索的表示,以用于自动抑郁检测。为了对这些研究进行分类和总结,我们介绍了抑郁症自动评估的数据库和客观指标。我们还回顾了用于抑郁症自动检测的DL方法,以从音频和视频中提取抑郁症的表示。 最后,我们讨论了与使用DL自动诊断抑郁症相关的挑战和有前景的方向

介绍

抑郁症是一种精神疾病,它给个人、家庭和社会带来了严重的负担。根据世界卫生组织(WHO)的数据,到2030年,抑郁症将成为最常见的精神疾病[1]。在严重的情况下,抑郁症会导致自杀[2,3]。一份由[3,4]发布的报告指出,大约50%的自杀与抑郁症有关。目前,抑郁症还没有独特有效的临床表征,这使得抑郁症的诊断既费时又主观[5]。由于金标准的评估或工具主要依赖于临床医生的主观经验,因此,要有一个统一的标准来诊断抑郁症的严重程度是一个挑战。其严重程度的主要诊断工具,例如,HAMD [6],依靠临床医生或个人自己进行的访谈,得出一个总结了患者的行为。抑郁症的诊断是复杂的,不仅取决于受试者的教育背景、认知能力和描述症状的诚实程度,还取决于临床医生的经验和动机。需要全面的信息和全面的临床培训才能准确诊断抑郁症的严重程度[7]。一些生物标志物,例如低血清素水平[8,9],神经递质功能障碍[10,11]和遗传异常[12,13],已被认为是抑郁症的指标。然而,尚不清楚哪种生物标志物是最有效的指标。因此,近年来,已经引入了许多自动抑郁估计(ADE)系统,以基于利用机器学习、语音识别和计算机视觉领域中开发的技术提取的视听线索来自动估计抑郁的严重程度[14-17]。ADE系统的目标是帮助临床医生从视听信息中有效地诊断抑郁症的严重程度。

设计代表性特征及其提取来估计抑郁症的严重程度是ADE深度学习架构的重要一步。ADE功能可以是手工制作的,也可以基于深度学习模型。广泛使用的手工制作特征的示例包括局部二进制模式(LBP)[18]、来自三个正交平面的局部相位量化(LPQ-TOP)[19]、来自三个正交平面的局部二进制模式(LBP-TOP)[20]以及其他(例如,面部动作单位(FAU)、标志、头部姿势、凝视)[21]。自2013年以来,抑郁症识别挑战赛,如视听情绪识别挑战赛(AVEC 2013)[22]和AVEC 2014 [23],通过人机交互记录抑郁症数据。手工制作的功能被认为可以为ADE带来良好的性能。然而,它们受到以下限制。首先,提取手工制作的特征需要大量的努力(例如,领域知识、时间和劳动力等)。 例如,LBP-TOP被广泛用于情感识别ADE。然而,如果我们开发类似于LBP-TOP的手工制作功能,我们必须拥有抑郁症的特定任务知识,而获得这些知识是耗费劳动力的。其次,一些隐含在视听信号中的判别模式不能很好地提取。最后,开发特征的动机来自研究者的主观假设。不同的研究者从不同的角度设计特征。

幸运的是,深度学习的快速发展推动了深度学习(DL)方法用于抑郁症识别的研究,并且不会受到上述挑战的影响,与手工制作的特征相比,它已经获得了有前途的性能。对于通过深度学习学习的特征,广泛的研究采用深度卷积神经网络(DCNN)来基于视听线索提取ADE的多尺度特征表示[24-35]。图1显示了ADE根据方法和数据库的演变。

近年来,基于音频[36]和视觉线索[37],已经发表了一些关于抑郁症识别和分析的详尽综述。这些调查为ADE提供了一个全面的范围。此外,基于2010年至2017年的研究,发表了DL情感识别的综述[38]。然而,还有两个方面尚未探索。由于现有的综述仅关注听觉或视觉线索来评估抑郁症的严重程度,因此视听线索的联合使用尚未得到充分讨论。此外,现有调查仅考虑传统方法,并且DL技术尚未纳入其分析。近年来,数字化语音识别技术加速了基于视听线索的抑郁症识别技术的发展和创新。目前,对多模态视听方法在抑郁症识别中的应用尚缺乏深入的研究。 我们的目标是填补现有广泛综述中的差距,包括越来越重要的基于视听线索的深度多模态ADE方法。

img

图一. ADE方法和数据库的演变。从2013年到2021年,基于特征提取的算法经历了从手工到浅层再到深度学习的三个不同阶段。与此同时,数据库从单一模式(例如,单独的音频或视频)到多模态(包含多种类型的数据)。

本文贡献

总之,我们对情感计算领域的贡献是:

(1)我们根据视听线索中ADE的DL提出了一项与抑郁症相关的全面调查。

(2)我们详细回顾了1994年至2021年最重要的20个数据库。

(3)本文首先回顾了114篇基于视听线索的ADE研究,选取了78篇采用DL方法进行ADE的研究,并将其分为:(1)基于听觉模态的深度ADE网络;(2)基于视频模态的深度ADE网络(空间特征提取、时间特征提取);(3)基于视听线索的深度ADE网络。

(4)我们指出了悬而未决的问题和有前景的方向。

本文结构

我们全面回顾了基于深度神经网络的抑郁症自动检测方法,讨论了它们面临的挑战,并指出了未来的研究方向。在下文中,第2节提供了抑郁症的定义,并描述了抑郁症评估的客观标志物。第3节介绍了几个多模态抑郁症数据库。第4节详细回顾了深度ADE的一般方法,并介绍了几种基于视听线索的新型神经网络结构。其他问题在第5节中描述。第6节提供了基于我们的论述的结论。此外,为了清楚起见,本文的结构在图2中以图形方式示出。

img

图二.本文的结构。

目前的诊断方法

为了更好地理解基于视听线索的抑郁症识别过程,接下来回顾抑郁症的定义,然后调查抑郁症的自动诊断方法。

抑郁的定义

1980年,罗素提出情绪状态可以表示为二维空间中的连续数值向量,称为Valence-Arousal(VA)空间,见图3。效价维度指的是两种类型的情绪状态,即,积极的和消极的。唤醒维度代表了情绪的强度,从困倦(或无聊)到高度兴奋。如图3所示,抑郁症位于VA空间的第三象限[39],对应于低觉醒和负效价。

img

图三.二维情感空间,可以分为四个象限[40]。每一个象限都与各种情绪相关联。例如,高唤醒和积极情绪状态包括兴奋,高兴,快乐等。抑郁症可以放在VA的第三象限。

根据美国精神病学协会(阿帕)的精神疾病诊断和统计手册(DSM)[41]的定义,抑郁症可以进一步分为以下几类:重度抑郁症(MDD)、持续性抑郁症(心境恶劣)、破坏性情绪调节障碍(DMDD)、经前期焦虑障碍(PDD)、物质/药物诱导的抑郁症(S/M-IDD)、其他疾病导致的抑郁症(DDDAMC)、其他特定抑郁症(OSDD)或未特定抑郁症(UDD)。DSM提供了根据观察到的症状对精神障碍进行分类的一般标准。当一个人至少出现以下两种症状之一时,(1)一天中大部分时间情绪低落和/或(2)兴趣或快乐明显减少,同时伴有表1中至少四种或更多种症状并持续至少两周。 此外,预期上述症状也会导致临床上显著的社会、职业或其他重要功能领域的痛苦或损害。尽管如此,在一定程度上,这些不同类型的抑郁症相关疾病以相似的方式表现出来。

如何诊断抑郁症的问题已经引起了来自不同领域的许多研究者的关注。但对抑郁症发病机制的认识至今尚未统一和达成一致。然而,其发病机制通常被认为与皮质边缘系统功能障碍有关,降低了其活性和连接性[42-45]。人们认为抑郁症取决于遗传易感性和环境因素之间的相互作用[46,47]。在[48]中,人们发现猴子失去了母亲可能由于遗传易感性的影响而患有抑郁症。在[49]中,Remi等人发现,对于男性来说,由于环境因素的影响,在收养家庭中饮酒过多会增加患抑郁症的风险。 对于女性来说,养父母在被收养者年满19岁之前死亡,或者收养家庭中存在行为障碍的个人,会增加抑郁症的风险。

DSM经常受到批评,因为精神疾病之间的界限并不总是正确定义的。这导致根据[58,59]的报告,在美国,MDD导致的增量经济损失从2005年到2010年增长了21.5%,而经济损失估计为GDP的1%。

表1.与抑郁症相关的症状

情绪低落和/或兴趣或快乐明显减少
结合以下四项:
1.不节食时体重显著减轻或体重增加(例如,一个月内体重变化超过5%),几乎每天食欲下降或增加(在儿童中,未能实现预期的体重增加);
2.几乎每天都有失眠或嗜睡(无法入睡或过度睡眠);
3.几乎每天都有精神上的激动或迟钝(可被他人观察到,而不仅仅是不安或被放慢的主观感觉);
4.几乎每天都有无意识或过度或不适当的内疚感(可能是妄想)(不仅仅是自责或对生病的内疚);
5.几乎每天思考或集中注意力的能力下降,或犹豫不决(主观认为或他人观察到);
6.几乎每天都感到疲劳或能量损失;
7.反复出现死亡的想法(不仅仅是害怕死亡),或者没有具体计划的反复自杀想法,自杀企图或自杀的具体计划。

诊断抑郁症

初级保健环境中很难评估抑郁症的严重程度。抑郁症的诊断通常由于错误识别的机会、其耗时的性质以及并非所有抑郁症受试者都直接表现出抑郁症表现(例如,无助或绝望等)[60,61]。此外,生物因素、家庭/环境压力源和个人脆弱性的组合在影响MDD的发作方面起着至关重要的作用[62]。

目前,最常用的评估方法是访谈,例如,HAMD [6]或自我评估,例如,BDI(1961年第一版,1996年最新版)[63]。根据评估方法(HAMD和BDI)对每位患者进行评分,通过对21种抑郁相关症状进行评级来表征其严重程度。HAMD和BDI的主要区别在于HAMD需要20-30分钟的访谈,由临床医生填写评定问卷,而BDI需要5-10分钟完成自我报告问卷。此外,这两个评定量表考虑不同的测量:HAMD集中于神经植物性症状(例如,精神发育迟滞、体重、睡眠和疲劳等),而BDI侧重于对消极自我评价症状的自我评估。已证明HAMD和BDI在区分抑郁症患者和非抑郁症患者时具有一致性[64,65]。HAMD工具被认为是诊断抑郁症严重程度的金标准。然而,相关研究也暴露出一些问题[65-67]。最重要的是,一些典型的症状(即,失眠、情绪低落、激动、焦虑和体重减轻)被HAMD忽略。 对于HAMD问卷中的每一个问题,心理学家或临床医生应提供3-5个可能的答案来评定抑郁症的严重程度。在0-2、0-3和0-4的范围之一中的分数被分配以指示抑郁症的每种症状的严重程度。评分总和可分为5组:(正常:范围为0 - 7)、(轻度:范围为8 - 13)、(中度:范围为14 - 18)、(重度:范围为19 - 22)和(极重度:≥23)。虽然HAMD已经涵盖了许多抑郁症的症状,[68,69]评论说,只有一部分列出的症状是有用的估计抑郁症的严重程度。认为简单的“症状检查表”方法不足以评估ADE。

如上所述,从临床角度对抑郁症的定义也可能取决于自我报告量表和清单(SRSIs)提供的评分。常见的评估工具有BDI/BDI-II、PHQ-2/8/9(患者健康问卷,这里2、8或9是问题的数量)和抑郁和躯体症状量表(DSSS)。为了进一步理解SRSI,下面介绍BDI。BDI是一种SRSI,通常用作抑郁症的评估工具[70]。它由21个问题组成,包括认知、情感和躯体症状,以及几种负面表现(例如,自我评价和自我批评)。BDI/BDI-II的每一个项目都由多项选择定义,并由一个数值(范围:0-3)加权。BDI评分的范围为0 - 63((无或轻微抑郁:范围为0 - 13),(轻度:范围为14 - 19),(中度:范围为20 - 28),(重度:范围为29 - 63))。 最初,BDI不是专门设计的,对于初级保健使用,但其实际性能[71]表明它也适用于初级保健会议。

尽管SRSI已广泛用于各种研究,特异性和灵敏度高达80%至90%,但它们仍然存在某些问题[72]。具体而言,SRSI不考虑观察到的症状的临床意义,并且与临床访谈相比,在报告不同性状或特征时允许个体差异[73]。此外,SRSI不能很好地区分抑郁症的不同亚型[64]。此外,SRSI易受有意或无意报告偏倚的影响[74]。总体而言,尽管在提供有效的抑郁症诊断方面存在困难[75-77],但SRSI已以各种方式被广泛采用,例如在初级卫生保健和研究中。SRSIs用于广泛筛查以促进抑郁症评估的成本效益已得到强调[78]。

表2列出了一些用于评定抑郁症的量表,例如,HAMD、BDI、PHQ-9、抑郁症状量表(IDS)、16项抑郁症状快速量表(QIDS)、Zung抑郁自评量表(Zung-SDS)和10项Montgomery-A-Sberg抑郁量表(MADRS)等。但是,究竟哪一种更有效,目前还没有统一的结论。在[84]中发现,BDI-II和PHQ-9具有足够的可靠性、收敛/判别效度和相似的变化反应性。他们认为PHQ-9将成为未来抑郁症的诊断标准,因为与BDI-II相比,它的问题更短。当选择适当的抑郁筛查工具时,这些发现支持在寻求减肥手术的患者中使用PHQ 9作为BDI-II的可行替代方案[85]。

表2.常用抑郁评分量表
image-20240906175115072

许多抑郁症评定量表可用于抑郁症评估,它们可以用于不同的场景。从宏观分析的角度来看,HAMD对抑郁症的诊断上级DSM-IV,但DSM-IV抑郁症状可以为治疗方案的选择提供有意义的信息。从微量分析的角度来看,HAMD也常用于选择性5-羟色胺再摄取抑制剂[86]。

抑郁症评估的客观指标

通常认为抑郁症的表现会受到各个方面的影响[87,88]。可观察的行为信号在精神病学领域是不被接受的。然而,在这些领域的一些研究仍然获得了流行至今。客观标记在心理学中已被广泛采用;它们可用作相关领域的客观诊断工具(即,初级临床机构、心理机构)。他们提供了一个强大的评估工具,帮助临床医生有效地诊断严重程度,并为易感个体提供后期反馈和宝贵的建议。随着可穿戴设备的发展,已经设计了一种交互式虚拟工具,用于部署在智能手机平台上,以帮助诊断抑郁症受试者或疑似人群[17]。 因此,迫切需要设计新的评估工具,例如开发诊断工具来研究新的标志物。 以往的研究对客观的生理,生物和行为标记物提高了精神病诊断的效率,并有潜力降低抑郁症造成的社会经济成本[57,89]。

在被公认为现代精神病学之父的Emil Kraepelin的早期工作中,他将抑郁的声音定义为“患者低声说话,缓慢,犹豫,单调,有时口吃,耳语,在他们说出一个词之前尝试几次,在谈话中间变得沉默”。事实上,Mehrabian等人[91]认为面部表情,语音和语义信息分别占情感计算消息的55%,38%和7%。在[36]中,言语被认为是分析抑郁症的关键客观标志,涵盖了广泛的特征(例如,韵律、源、声学和声道动力学)。

此外,面部区域周围的图案对于抑郁估计也是重要的。手和身体姿势包括在与抑郁估计相关的某些模式中。视觉线索对于估计抑郁症是必不可少的。认为瞳孔扩大与抑郁症有一定关系。在[92]中,认为更快的瞳孔运动代表健康对照的阳性。抑郁受试者在某些情况下瞳孔扩张反应较慢[93-98]。在[99]中,人们发现瞳孔偏差和直径对于评估抑郁症也很重要。此外,面部表情的因素(例如,愤怒、悲伤、喜悦、惊讶、厌恶、恐惧等)被视为抑郁症检测的区分线索。假设一个人被诊断为抑郁症。在这种情况下,他们将在他们的面部表情中表现出低表达性[17,87,96,100 -104]。 这些特征包括减少的目光接触[105]、注视方向[104,106 -108]、眼睑活动[109]、虹膜运动[110]和眼睛张开/眨眼[96,110,111]。眼球运动和眨眼也被认为是对抑郁症进行分类的区别特征[109]。此外,自发微笑的持续时间[106,108],微笑的强度[104,106,108],嘴巴动画[111],缺乏微笑[105]也被认为包含抑郁检测的有价值的模式。

动作单位(Au)是肌肉群或个体肌肉的基本动作,最初由Ekman等人提出[112],然后由Cohn等人采用[14]来分析抑郁状态。在[113]中提出了一种新的基于AU的方法,称为区域单元(RU)。罗斯用于表示包围AU的面部区域。Au已被用于评价抑郁症的严重程度,并取得了令人满意的结果[100- 102,114 -126]。后来,人们发现[109]头部姿势和运动也包含用于评估抑郁症严重程度的判别模式[17,96,100 - 104,106,108,110,111,117,127 -130]。具体而言,46个点已被用于使用主动外观模型(AAM)来训练3D人脸模型以提取头部姿势和运动特征。面部动画和运动的可变性也被用于抑郁症检测[17,100,102,111]。身体姿势(例如:上半身、下半身和手)也是非常重要的检测特征[128-132]。Gratch等人。[107]发现足部敲击和自适应器也有助于抑郁症的检测。此外,面部肌肉的活动、皮肤电反应和外周血压也会引起不自主的变化,这些变化往往反映了抑郁症常见的、持续的消极思想和悲伤情绪。在[133]中发现,脑电图记录可能具有与抑郁症相关的某些模式。在[134,135]中,功能性近红外光谱(fNIRS)也被认为是帮助抑郁症诊断任务的工具[136]。

此外,研究发现抑郁症可导致神经生理和神经认知异常,这在通过面部手势、语音清晰度等进行的个体交流中得到证明[37,137]。因此,我们集中在这方面的审查视听信号的ADE。从基于视听线索的机器学习的角度来看,抑郁症识别问题可以被看作是一个分类和回归问题。例如,在AVEC 2013和AVEC 2014竞赛中,ADE任务可以被认为是回归问题,目的是估计抑郁水平,即,每个音频和视频的BDI-II。在AVEC 2016 [123]中,第一个目的是估计PHQ-8评分,这可以被认为是一个回归问题,而第二个目的是将受试者分类为抑郁或非抑郁,这是一个分类问题。AVEC 2017 [138]中的任务也是估计PHQ-8评分,这可以被视为回归问题。

表3.过去20年来被审查的作品中采用的视听数据库的摘要。缩略语:DPRD抑郁、SCDL自杀、NTRL中性、无抑郁或自杀、M男性人数、F女性人数DSM -精神障碍诊断和统计手册、HAMD -汉密尔顿抑郁评定量表、BDI -贝克抑郁量表、QIDS -抑郁症状快速量表、PHQ-9 -患者健康问卷。注:DSM是语料库中所有抑郁症患者的临床评分,以满足重度抑郁症的标准。

image-20240906175721389

抑郁症数据库

img

见图4。从AVEC 2014数据库中的视频剪辑中随机选择图像沿着及其BDI-II抑郁严重程度评分[23]。为了保护参与者的隐私,图像被模糊,眼睛的区域被遮挡。从不同的行中,可以看到抑郁症的严重程度在图像中从无增强到严重。

数据收集的原则

收集抑郁症数据需要从医院或心理诊所招募一些参与者,这是抑郁症研究中最具挑战性的部分。如现有研究所述,抑郁受试者和健康对照者均按照DSM-IV [41]标准[14,92,93,95,117,130]和Scinor HAMD [14,118,130,132]进行评估。此外,国际神经精神访谈(MINI)[154]已被用于诊断抑郁症的严重程度,QIDS-SR已被用于定义它。BDI已被广泛应用于评估抑郁症的严重程度[92]。在其他情况下,几个标准,PHQ-9 [17,100 -102,106,107]和BDI-II [22,23]旨在评估与抑郁症相关的症状。其他征聘办法(例如,传单、海报、社交网络、个人联系人和邮件列表)也被用于若干研究。

为了获得评估抑郁水平的有价值的模式,应该仔细设计实验环境。在一般情况下,一些协议在实验之前签署。如果数据收集发生在医院,则应首先安排一些设备(例如,摄像机、麦克风和传感器),并应计划要记录的变量的细节。接下来,应收集参与者的详细信息(例如,记忆记录表和认知能力)。例如,在[155]中,患者必须满足以下标准:(1)诊断为MDD或其他精神障碍;(2)能够理解并满足方案的要求;(3)没有其他可能干扰结果的临床背景(例如,谵妄、痴呆、遗忘或其他症状);(4)没有评估双相情感障碍症状;(5)在过去三个月内不能满足DSM-IV的标准;(6)能够理解美式英语。 此外,健康对照组必须满足相同的标准。特别是,健康的人在过去一年中不应该有任何与抑郁症有关的症状。所有音频样本都是在同一年和相同的环境中收集的(即,房间和其他实验设置)。

如上所述,收集环境或设置对于记录数据至关重要。在某些情况下,情绪诱导被用来在参与者中产生特定的情绪反应,这在健康对照组和抑郁受试者之间是不同的[36]。此外,访谈也被用来发现抑郁症的症状,在访谈中也发现了一些与抑郁症密切相关的自发情绪模式[113]。总的来说,访谈由临床医生、心理学家、精神病学家、虚拟人访谈员进行,并由计算机引导以生成多个数据样本。

关于模态,语音和视频样本[14,16,17,101,103,104,106 - 108,111,120,128 - 130,156 -160]以及生理信号[107,161,161 -167]和文本[107,115]都被用来提高抑郁症评估的性能。然而,具体的方式是由所使用的设备决定的。数据收集阶段。对于音频剪辑,计算机或膝上型计算机已被用于记录数据样本(即,AVEC 2013 [22]、AVEC 2014 [23]、AVEC 2016 [123])。对于视频模态,面部和整个身体已经由多个摄像机从不同角度分别记录[14]。此外,基于眼睛温度的热图像已被用于确定抑郁症的严重程度[168]。微软Kinect也被用于记录参与者的上半身[100,106]。参与者之间的距离约为一米。设计了一种便携式三电极EEG设备来收集脑电图数据[166]。与情绪诱导一样,不同的研究在具体设置上也有所不同。

数据库综述

深度抑郁识别需要足够的数据来训练判别模型。由于抑郁症的敏感性,数据收集具有挑战性。因此,不同的研究小组都试图收集自己的数据库,研究评估工具的抑郁估计。因此,数据库是否开放对ADE起着非常重要的作用。在这篇综述中的114项研究中,只有5%的研究包含不向公众提供的私人数据集。在这次审查中,共审查了20个数据库,只有8个数据库可供公众使用。在这里,我们介绍的数据库已被广泛采用的抑郁症检测的审查研究。此外,我们还涵盖其他私人发布的数据库。表3总结了上述数据库,包括受试者数量、注释评分、基础事实、可用性和其他详细信息。图 4显示了AVEC 2014数据库中的一些图像示例。为了进一步突出ADE的数据库,我们只回顾最流行的数据库。

1-BlackDog数据库[146]由一个名为BlackDog研究所的组织收集,专注于澳大利亚悉尼的临床研究。80名参与者(年龄从21岁到75岁不等)参加了会议。为了确保实验的可用性,所有参与者都必须遵守DSM-IV的标准。语音数据记录在采访者和参与者之间的对话。临床互动是通过询问特定问题(8组)来进行的,其中要求参与者描述由特定情绪刺激的事件。

2 -AVEC 2013数据库[22]是从视听抑郁语料库中精选出来的,涵盖了来自292人进行人机交互的340个视频。参与者的平均年龄为31.5岁(范围从18岁到63岁)。采用BDI-II标记每个音频和视频片段。在这个数据库中,组织者只提供了总共150个音频和视频片段,分为三个等价的分区(培训,开发和测试集)。与前面提到的数据库不同,AVEC 2013是开放的,供研究人员设计ADE系统。

3 -AVEC 2014语料库[23]选自AVEC 2013语料库。唯一的区别是AVEC 2014语料库包含两个任务,即Freeform和Northwind。因此,每个分区覆盖100个数据样本。因此,AVEC 2014共包含300个数据样本。BDI-II用于标记每个音频和视频剪辑。

4 -DAIC数据库是基于美国的半结构化临床互动收集的。进行了四种类型的访谈:面对面,会议,Wizard-of-Oz(人机对话),和自动。该数据库包含189个交互会话,并且由视听提示以及生理数据(例如,皮肤电反应(GSR)、心电图(ECG)和呼吸)。此外,在交互过程中还收集了文本模态。使用不同的言语和非言语特征来注释语料库。DAIC与AVEC 2013和AVEC 2014在研究人员开放获取方面相同。

5 -在CHI-MEI数据库[150]中,采用六个离散视频(即厌恶,恐惧,悲伤,惊讶,愤怒和快乐)来唤起受试者根据他们的面部区域和对他们的言语反应表达他们的表情。由台湾奇美医学中心的临床医生从受试者的语音反应中收集奇美语音数据库。在这个数据集中收集了音频和视频数据。总共招募了15名BD、15名UD和15名健康对照用于CHI-MEI。此外,参与者必须在数据收集之前完成基线记录。之后,参与者观看了六段情感视频。

6-匹兹堡数据库[151]涉及57名(34名女性,23名男性)抑郁症参与者,他们来自抑郁症的临床治疗。年龄范围为19 - 65岁(平均= 39.65)。所有参与者都必须满足DSM-IV的MDD标准。由10名随机临床访谈者在第1、7、13和21周评估MDD的严重程度。该数据库也开放供公众使用。

7 -BD数据库[152]涉及一家医院精神卫生服务的46名患者和49名健康对照。采用SKIP-TURK半结构式访谈法对所有患者进行社会人口学和临床特征分析,并在随访0、3、7、14、28 天时采用Young躁狂量表(YMRS)和MADRS评定抑郁和躁狂症状,第3个月进行改变。在此步骤中,记录了视听样本。因此,每个视频会话分别由YMRS/MADRS评级注释。该数据库用作AVEC 2018中的挑战数据。

8 -MODMA数据库[153]是从中国的音频和EEG信号中收集的,用于精神障碍分析。经验丰富的精神科医生从医院严格招募所有参与者。EEG数据库包含使用传统的128电极弹性帽记录的数据样本,以及新的可穿戴3电极EEG记录仪,可广泛使用。53名受试者在静息和欠刺激状态下记录了128个电极的脑电信号,55名受试者在静息状态下记录了3个电极的脑电信号。具体到音频数据,通过允许参与者接受采访,阅读故事和观看情感图片,从52名受试者中收集样本。

根据表3中提到的数据库,进行以下讨论:

(1)由于数据库由不同的实验室或组织记录,视频记录设备的类型可能会有所不同。匹兹堡的数据库采用了四台硬件同步的模拟摄像机:两台分别放置在距离参与者左右约15米处,用于监控头部和肩部,第三台摄像机用于全身记录,而第四台则记录采访者的活动,并配有两个麦克风来记录演讲。其他数据库使用摄像头来监控参与者的面部/上半身的活动。

(2)从开放性的角度来看,大部分数据库仅用于自己的研究,尚未公开发布用于抑郁症识别研究。在本次综述的114项研究中,62%同时考虑了AVEC 2013和AVEC 2014数据库,29%考虑了DAIC数据库。DAIC-WOZ、BD数据库[152]、匹兹堡数据库[151]和MODMA数据库仅部分向公众开放。此外,还提供了AVEC 2013和AVEC 2014组织者的原始音频和视频,供研究人员提取手工制作和深度学习的特征,因此更多的研究采用了AVEC 2013和AVEC 2014数据库。

(3)大多数数据库都是在美国和欧盟地区收集的。中国只有一个数据库可供研究人员使用,那就是MODMA

(4)在回顾的研究中,共采用了20个不同的抑郁症数据库。就模式而言,大多数数据库涉及一个或多个(例如,音频、视频、生理信号、文本)。如表3所示,有12个数据库被评为单峰,占60%。在单模态类别中,50%使用音频模态。原因是音频可以在任何环境中轻松收集。对于多模态数据库,只有8个可用,占40%。

(5)数据库的另一个重要方面是主题的数量。就受试者的数量而言,所有数据库都由相对较小的数据样本组成,这是因为抑郁症是一种精神障碍,并且也被抑郁症受试者保密。AVEC 2014涉及292名受试者,数据样本来自这些受试者,而其余数据库涉及的受试者相对较少。罗切斯特数据库涉及的受试者最少,并且不对公众开放。

深度视听抑郁识别

本节介绍ADE中采用的常规程序,即,预处理、深度特征提取和分类/回归。在下文中,文献被分为三组:(1)用于音频模态的深度ADE网络;(2)用于静态图像的深度ADE网络;以及(3)用于图像序列的深度ADE网络。此外,还介绍了不同的网络类型为所提到的群体沿着进行讨论。

自2013年以来,深度学习方法受到了计算机视觉社区的极大关注。本文的目的是(i)从视听线索中查看与抑郁症相关的最新工作信息,以及(ii)综合 DL 应用于抑郁症评估的关键收获。

为了实现这些目标,自2013年以来,我们进行了两阶段文献检索(IEEE Xplore,Springer Link,Web of Science和ACM数字图书馆)。我们的第一阶段搜索产生了480项研究。在第二阶段,我们将搜索限制在采用听觉和视觉线索识别抑郁症的研究中。之后,我们对这些研究进行了人工排序,通过浅层和DL方法,获得了114篇与抑郁症相关的研究。然后,我们集中在本综述中考虑的78项研究,采用DL的ADE。出于本综述的目的,这些选定的研究在以下章节中根据ADE的DL按方式(音频和视频)进一步分类。

img

图五. 2013年至2021年,研究出版物数量。为了进一步说明采用深度学习识别抑郁症,浅层和深层研究按出版年份进行统计。

图5显示了2013年至2021年的研究出版物数量。根据图5,可以得出以下结论:(1)从2013年到2021年,相关出版物迅速增加,表明基于视听线索的ADE是一个快速增长的领域。特别是在2013年和2014年,抑郁症子挑战提供了一个动机,以评估从视听线索的严重程度。然后,在2016年和2017年与抑郁症相关的挑战中,多项研究尝试使用深度学习从另一个角度分析抑郁症,从而发表了一些新颖的研究。

(2)自2017年以来,ADE的DL受到了高度关注。2017年和2018年的兴趣急剧上升可归因于2016年的[24]和2017年的[28]。

预处理

传统的和端到端的方案在实际的抑郁识别和分析之前都需要一些预处理。

在78项综述的研究中,53项(该数字将与视频模态的研究重叠)采用不同的音频模态策略进行了预处理。例如,音频的采样率被处理为16 kHz或其他速率(例如,AVEC 2013)。为了生成音频数据的频谱图,采用离散傅里叶变换(DFT)方法来对音频信号进行时频(TF)表征。为了选择DFT参数,使用汉宁窗口(23 ms,50%重叠)[33]。此外,为了提取有效的手工特征,在抑郁症识别研究中考虑了低级描述符(LLD)的长度。在[33]中,他们尝试了不同长度的LLD,并建议20 s足以获得良好的性能。在[169]中,以8 kHz对波形进行采样 ,使用短时傅立叶变换(具有32 ms汉明窗和16 ms帧移)为AVEC 2013和AVEC 2014数据库生成129维归一化幅度谱图。

而对于视频数据,人脸检测和相邻帧之间的对齐是常用的预处理技术。在78项审查的研究中,有54项(该数字将与音频模态的工作重叠)采用不同的视频模态策略进行预处理。例如,Viola和Jones提出了一种通用的人脸检测算法[170]。此外,OpenFace工具包为许多应用程序中的人脸检测和对齐提供了免费工具[171]。计算机表情识别工具箱被用于许多领域,但目前还不能免费使用[172]。在网上可以找到一个全面的面部预处理工具。此外,视频数据被预处理为不同类型的抑郁症识别,即,帧级图像、图像子序列和图像序列。

深度神经网络架构

在本节中,为了帮助读者了解ADE的最新技术水平,我们简要回顾了计算机视觉领域采用的重点DNN架构,例如DCNN,递归神经网络(RNN),卷积3D(C3 D),长短期记忆(LSTM),编码器-解码器和自动编码器架构,生成对抗网络(GAN),和其他新的变种。

卷积神经网络

到目前为止,CNN已经成为DL领域最流行的架构。CNN最初是由福岛[174]基于“新认知机”提出的,其动机来自于Hubel和Wibel的视觉皮层的分层感受野。在那之后,LeCun等人[173]设计了一个文档识别的架构。为了清楚地解释CNN,我们以LeNet-5为例。LeNet-5包含三种类型的层:卷积层、池化层和全连接层。卷积层的目标是根据输入对特征表示进行建模。如图6所示,可以看到卷积层包含用于计算特征图的卷积核列表。池化层用于降低特征图的空间分辨率。具体来说,一些统计
操作(例如,平均值、最大值等)用于替换特征图中的小邻域以实现平移不变性。在卷积层和池化层之后,一个或多个全连接层被连接起来以生成高级特征表示[175]。在前一层中采用全连接层的所有神经元连接当前层的每个单个神经元以产生全局输出信息。在某些情况下,全连接层可以变成1 × 1卷积层[176]。CNN的关键优势在于所有的感受野在一层中共享权重,因此与全连接神经网络相比,只需要少量的参数。目前,已经提出了各种著名的CNN架构来解决图像分类任务,例如,AlexNet [177]、ResNet [178]、VGGNet [175]等。

img

图6。LeNet-5网络。从[173]。该网络由三种类型的层组成:卷积层、池化层和全连接层。

编码器-解码器和转换器

编码器-解码器网络旨在通过两级架构学习潜在特征表示(见图7)[179]。编码器可以通过函数f=f(f)将输入f映射到潜在表示f,而解码器可以通过函数f=f(f)将f映射到f。编码器-解码器架构的主要优点是可以在许多任务中捕获全局语义信息,例如,NLP、序列对序列、图像超解等

img

图7.编码器-解码器架构的简单说明。编码器可以通过函数 R=E(x) 将输入 x 映射到潜在表示 R ,而解码器可以通过函数 y=D® 将 R 映射到 D 。

变换器最初由Ashish [180]提出,以避免重复,并采用注意力机制来学习输入和输出之间的全局模式(见图8)。它由堆叠的自注意和逐点,以及编码器和解码器子架构的全连接层组成。该编码器由n= 6个相同的层组成,每个层包括一个多头自注意子层,然后是一个位置全连接前馈网络。该解码器也由n= 6个相同的层组成,每个层由一个多头自注意子层、一个位置全连接前馈网络和一个掩码多头自注意层组成。在编码器和解码器上,在每个子层周围采用残差连接,然后还使用层归一化。因此,transformers为自然语言处理(NLP),计算机视觉等提供了一种新的模式表示方法。 Transformer的一些著名变体包括Informer [181]和Longformer [182]。有关变换器的详细说明,请参见[183]。

img

图8。Transformer架构概述[180]。编码器和解码器子架构由堆叠的自注意和逐点和全连接层组成,以学习自然语言处理的判别特征。

RNN和LSTM

为了对来自音频、视频和文本的序列信息进行建模,RNN由Rumelhart等人提出。然而,RNN无法对长期依赖关系进行建模,并且在现实世界的任务中,也是梯度可能消失或爆炸的问题。因此,RNN的一个变体,称为LSTM [186],被引入来解决这些问题。如图9所示,LSTM由三个门组成:输入门、输出门和遗忘门,以协调学习模式的存储单元的输入和输出流。

img

图9. LSTM的概述[184]。三个门,即输入门、输出门和遗忘门,组成了LSTM,并从时间间隔控制存储单元的输入和输出流。

生成对抗网络

2014年,Goodfellow等人提出了生成对抗网络(GAN)(见图10)。[187]为许多任务中的数据增强提供了一种更新的解决方案,例如图像生成,NLP,语义图像编辑等。基本GAN包含两个模型:生成器模型和生成器模型。将随机噪声映射到目标分布。SVM尝试将生成的“假数据”样本与真实的样本区分开来。GAN可以被认为是一个介于GAN和GAN之间的极大极小问题,其中GAN试图通过正确识别生成的数据来减少分类错误,而GAN试图通过生成更好的数据点来增加分类错误。GAN的一些变体包括卷积GAN [188],条件GAN [189]等。

img

见图10。GAN架构概述[187]。它由两种型号组成:发电机整流器和整流器整流器。

用于音频模态的深度ADE网络

在上面提到的数据库中,手工制作的特征的提取在基于音频的ADE中仍然占主导地位。接下来,我们将描述从ADE的音频线索中手工提取特征。

自1998年以来,已经提出了一系列特征表示方法来估计抑郁症的严重程度。在这里,我们只列出了一些经典的(浅)抑郁症识别方法,然后主要集中在深层自动抑郁症识别方法。1998年,60%的患者言语停顿的持续时间与HAMD评分密切相关[140]。在2004年,Cannizzaro等人发现说话速度降低与HAMD评分之间存在重要关系[190]:他们还发现不同的声学特征可能影响抑郁症的表现(例如,停顿时间百分比、说话速率和音高变化)

值得注意的是,音调和语速的变化被认为是抑郁分析的重要表征。2008年,摩尔等人[191]研究了各种特征的组合,例如,韵律、语音质量、频谱和声门。他们在对不存在/存在抑郁症进行分类时获得了相当的表现[191]。许多LLD指标(例如,韵律、源、共振峰和频谱)已被识别为有效的抑郁识别。关于基于语音的抑郁识别的深入综述,请参见[36]。如本综述所示,手工制作的特征在抑郁症识别方面取得了令人满意的性能。然而,仍然存在一些问题:例如,对于特征选择,手工和专家知识仍然是重要的,这浪费了人力资源。 此外,通过DL学习的表征在多个学科中表现出了比手工制作的表征更好的性能,ADE也不例外。在下文中,我们按照2016年至2021年的时间线描述了基于DL的方法。

img

图11。DepAudioNet框架的管道来自[24]。在这个框架中,1D-CNN和LSTM相结合,为基于音频的抑郁症识别建模不同的尺度特征。1D-CNN可以对原始波形的高级模式进行建模。LSTM可以从Mel尺度滤波器组特征中学习短期和长期表示的组合。梅尔尺度滤波器组特征被用作LLD来表示来自人声的特征。Conv是卷积运算,BN表示批量归一化,ReLU是校正的线性单元运算,MP是多层感知器。

img

图12。声谱与梅尔尺度滤波器组的可视化。(a)以及(B)表示来自健康对照的音频段的频谱图和滤波器组特征。©以及(d)示出了来自抑郁个体的音频片段的频谱图和滤波器组特征 [24]

2016年,[24]提出了一种基于深度学习的新模型DepAudioNet,用于从声音线索中挖掘抑郁症的表示,采用LSTM和1D-CNN来编码用于抑郁症识别的区分性音频表示(见图11)。1D-CNN可以从原始波形中建模空间特征表示,LSTM可以从梅尔尺度滤波器组中学习短期和长期特征表示[192]。此外,为了平衡正负样本,在使用LSTM之前的模型训练阶段采用了随机抽样的方法。使用DepAudioNet,不同的尺度表示,即,提取高级、短期和长期特征。为了进一步解释健康对照和抑郁受试者之间的不同表示,图12提供了从音频段提取的频谱图和滤波器组特征的比较。我们的目标是尝试使用深度学习方法来估计抑郁症的严重程度。 最重要的是,尽管训练数据的规模很小,但深度学习方法还可以从音频信号中学习判别模式。尽管所使用的抑郁症数据库只有有限数量的样本,但基于深度学习的抑郁症识别方法引起了众多研究人员的极大关注。

img

图十三.抑郁症的框架在[33]中提出。融合四流深度特征,即手工特征(LLD,MPEGBP)和深度学习特征(原始音频,频谱图),用于深度抑郁识别。Raw-Deep卷积神经网络(DCNN)(上图)采用LLD和原始音频信号作为输入,而Spectrogram-DCNN(下图)使用MIP-BP和频谱图特征作为输入。红框代表手工制作的功能。另外两个箭头表示深度学习的特征。BDI-II分数通过对四个DCNN分支的输出进行平均和聚合来计算。(For对本图图例中所指颜色的解释,读者可参考本文的网络版。)

然后,在2018年,使用了深度学习和手工制作功能的融合,能够有效地从语音中测量抑郁症的严重程度。在这一框架内1D-DCNN和2D-CNN用于学习和融合浅层和深层模式以评估抑郁症的严重程度。具体来说,LLD特征由OpenSMILE工具包[193]从音频中提取为手工制作的特征。从谱图中提取中值鲁棒扩展局部二进制模式(MRELBP)作为手工特征。原始音频和声谱图是用作1D-DCNN和2D-CNN的输入,以获得深度学习的特征。为了从RawDCNN和Spectrogram-DCNN中学习手工制作的特征和深度学习的特征之间的互补表示,使用了联合微调技术。此外,为了克服样本量小的问题,引入了一种数据增广方法。最重要的是,所提出的方案为抑郁症识别提供了一个端到端的架构[33](见图13)。[33]的贡献是试图融合来自语音的手工制作和深度学习特征,以进行抑郁估计。他们还从谱图中提取纹理特征来预测抑郁的严重程度,验证了所提出的方法,并在AVEC 2013和AVEC 2014数据库上获得了良好的性能,RSME分别为10.00和9.98(见表4)。

img

图14.在[194]中提出的框架的说明。在DCGAN框架中,提出了一种2级分层学习策略来简化训练过程[194]。在第一级中,特征图被分成9个块,大小为28 × 28。对于每个块,模型生成合成表示。在此基础上,生成了9个具有相同结构的DCGAN。第一级的输出(尺寸为9 × 28 × 28)被送入第二级以获得全局特征。

表4,在最广泛评估的数据库AVEC 2013和AVEC 2014上,从听觉和视觉线索识别抑郁症的综述方法的性能总结。

image-20240911164135583

2020年,由于可用于抑郁症识别的数据库规模有限,不同的研究提出了以某种方式增加数据的建议。例如,在[194]中,提出了深度卷积生成对抗网络(DCGAN)来增加数据样本的大小,以提高音频信号ADE任务的准确性。为了验证增强特征的性能,提出了三个测量标准:空间,频率和表示学习。在DAIC数据库上所提出的架构能够实现与大多数方法相当的性能,RMSE为5.52,MAE为4.63(见表5)。如图14所示,DCGAN框架包含具有两个级别的学习策略,以提高训练的收敛速度。在第一层中,特征图被分成9个大小为28 × 28的块。对于每个块,使用DCGAN模型来表示合成表示。在此基础上,生成了9个具有相同结构的DCGAN。第一级的输出(大小为9 × 28 × 28)被送入第二级以获得全局特征。该架构的优点是将复杂的训练转换为更简单的过程。Niu等人。[169]试图将音频片段转换为频谱图以馈送到深层架构中。 他们以8 kHz对音频片段进行采样,并采用STFT,使用32 ms的汉明窗和16 ms的移位,在AVEC 2013和AVEC 2014两个数据库上生成129维频谱图。他们发现,最佳的频谱图长度是64帧(1秒),两个数据库分别移动32帧(0.5秒)。

表5,DAIC数据库上抑郁症识别的综述方法的性能总结。请注意,DAIC-WOZ和E-DAIC的列出结果包含ADE的文本特征。

image-20240911164231596

在2021年,Niu等人[196]提出了一种新的框架,该框架集成了挤压和激励(SE)组件和时频通道注意力(TFCA)块来表示信息特征与抑郁症有关。为了考虑数据的时频特征,采用时频通道矢量化(TFCV)块来形成张量。然后,他们将这些块与DenseNet的两个块(即Dense块和过渡层)集成到一个统一的框架中,以生成时频信道注意力和矢量化(TFCAV)网络。他们的贡献是,时间-频率属性被认为是从频谱图学习的信息模式。在AVEC 2013和AVEC 2014上,该方法的性能分别达到8.73和8.82的RMSE。[195]提出了一个深度架构ADE从语音有两个贡献。第一种方法是将说话人识别(SR)和说话人情感识别(SER)特征相融合,以提高ADE的识别性能第二个贡献是使用特征变化协调测量(FVCM)算法来对时间延迟的多通道变化的相关和协方差系数进行建模(参见图15)。

img

图15. [195]中提出的语音ADE架构的说明。该体系结构可分为三个步骤:深层语音特征提取、协调性测量和分层模型构建。在第一步中,使用声谱图从预先训练的SR和SER模型中学习帧级说话人识别(SR)和说话人情感识别(SER)的特征。在第二步中,使用FVCM算法来计算时延多通道变化的相关和协方差系数,以获得协调特征。第三步,构建ADE模型。

img

图16。健康对照组和抑郁受试者的音频和视频特征示例。(a)和(B)分别表示AVEC 2013数据库的健康对照(No.203 -1)的音频和视频特征。©和(d)表示AVEC 2013数据库的抑郁受试者(No.236 -1)的模式。203-1号的抑郁量表为无(3),而236-1号为23(中度)。为了进一步说明凹陷尺度,使用红色和绿色矩形来表示区分性和较少区分性的特征向量。(For对本图图例中所指颜色的解释,读者可参考本文的网络版。)

图16(a)和(B)示出了用于健康对照的音频和视频子序列。©和(d)表示抑郁个体的相同模式。采用MATLAB的ImageSc工具箱绘制图形。从图中可以看出,(a)和(c)之间或(B)和(d)之间存在差异。例如,被红色矩形包围的块在个体之间是有区别的,而被绿色矩形覆盖的部分更相似。基于图16,我们可以进行以下观察:音频和视频帧的区别模式对于视频帧的不同贡献不同。

健康对照组和抑郁组。上述研究为后续的ADE研究提供了动力。

ADE的音频模态总结

1D-CNN和2D-CNN是用于基于音频的ADE的最受欢迎的深度架构(在本综述的24项研究中占58%)。有趣的是,最近的工作试图采用原始音频来馈送到1D-CNN中,以提取ADE的深层特征。在78项已审查的研究中,有24项是以音频方式发表的。

表4和表5列出了使用音频线索识别抑郁症的综述方法。表4显示,许多研究采用1D-CNN和2D-CNN模型来提取深度特征以确定抑郁症的严重程度。从算法的角度来看,广泛使用的DL技术已被用于评估抑郁症的严重程度,即,值得注意的是,原始音频信号直接输入1D-CNN,以克服传统特征设计方法的缺点[33]。

从音频线索中提取ADE的通常方案可以分为两种策略:从头开始训练,以及对ADE的现有预训练深度模型进行微调。因此,为了进一步提高ADE的性能,研究人员倾向于设计“更深”的模型,这在一定程度上会导致过拟合。这是ADE的主要问题。

用于视频模态的深度ADE网络

除了音频模态外,视频模态对ADE也很重要。因此,情感计算领域的研究探索了ADE视频中的表达模式。在下文中,我们介绍了基于视频的ADE研究。我们根据深度网络的输入将这些方法分为两组:从单个图像学习ADE的空间特征,从视频序列学习ADE的时间特征

从单个图像学习ADE的空间特征

视频可以被视为空间和时间模式的组合。因此,如何全面地学习时空信息是基于视频的ADE的关键。空间特征学习的目的是从人脸图像中学习鉴别特征。在78项研究中,有49项研究专注于采用2D-CNN来学习面部图像的表达特征表示。在下文中,我们描述了基于DL的方法,时间线为2015年至2021年。

img

图17.用于ADE任务的DepressNet的详细架构[197]。在该架构中,人脸图像首先由OpenFace工具包进行预处理,以确保它们具有相同的比例。该体系结构具有剩余连接,类似于流行的ResNet体系结构中的连接。DepressNet包含4个模块,分别由3、4、6、3个瓶颈结构组成。然后从该结构中提取2048D特征用于抑郁症的集成分类。

在2018年,Zhou等人。[197]提出了一种名为DepressNet的新型深度架构,用于从图像中学习表示以进行抑郁症识别,如图17所示。不同的深度架构(AlexNet、ResNet、VGGNet等)都接受过CASIA数据库的预先培训。DepressNet是通过将softmax层改为回归层,然后是全局平均池化(GAP)层来构建的,如图17所示。具体而言,DepressNet由四个瓶颈块组成,包括三个、四个、六个和三个瓶颈结构。之后,在AVEC2013和AVEC2014数据库上对深度模型进行微调。同时,损失函数也变为平方损失,可以写成:
L = 1 2 M ∑ j = 1 M ( g ( y j ) − ℓ j ) 2 L=\frac{1}{2M}\sum_{j = 1}^{M}(g(y_{j})-\ell_{j})^{2} L=2M1j=1M(g(yj)j)2
其中 M 表示批量大小,并且 g ( y j ) g(y_{j}) g(yj) ℓ j \ell_{j} j分别是样本 x j x_j xj的第j个面部图像的预测值和标签。另一种方法,多区域抑郁症网络(MR-DepressNet)[197],已被设计用于学习不同尺度模型以进行整体抑郁症识别,如图18所示。在此架构中,为了从不同区域和完整图像中学习区分模式,开发了四流DepressNet。为了学习更鲁棒的表示,四个子架构的输出在成本函数层被组合。形式上,MR-DepressNet的损失函数可以写为:
L = 1 2 M ∑ j = 1 M ( 1 J ∑ j = 1 J g j ( y j ) − ℓ j ) 2 L=\frac{1}{2 M} \sum_{j = 1}^{M}\left(\frac{1}{J} \sum_{j = 1}^{J} g_{j}\left(y_{j}\right)-\ell_{j}\right)^{2} L=2M1j=1M(J1j=1Jgj(yj)j)2
其中, M M M表示批量大小, J J J表示图像区域的数量, g j ( y j ) g_j(y_j) gj(yj)表示第 j j j个子架构的输出, ℓ j \ell_j j表示第 j j j个样本 y j y_j yj的贝克抑郁量表第二代(BDI-II)得分。对于多区域架构,一幅图像的集成输出通过 1 J ∑ j J g j ( y j ) \frac{1}{J}\sum_{j}^{J}g_j(y_j) J1jJgj(yj)来计算。此外,如图 18 所示,通过学习和融合四个面部区域可获得抑郁激活图。

img

图18. ADE的多区域DepressNet的详细架构来自[197]。在这种架构中,人脸图像首先由OpenFace工具包进行预处理,以确保它们具有相同的比例。然后将面部区域划分为不同的区域,这些区域与全脸一起送入DepressNet以估计BDI-II分数。

在2019年,[30]采用了2D-CNN和分布学习来模拟抑郁症的模式,使用预期损失函数来估计抑郁症的水平(见图19)。如在AVEC 2013和AVEC 2014上的大量实验所示,所提出的方法可以超过大多数最先进的方法(参见表4)。

img

图19. [30]的方法来估计抑郁症的严重程度。首先处理视频以生成对齐的面部图像。然后对ResNet-50进行微调以提取区分性特征,然后使用GAP层来汇集特征。最后,期望损失被用来衡量所提出的方法的性能。

此外,基于AVEC 2013和AVEC 2014数据库[198]的研究引入了双流DCNN框架,以从视频剪辑的RGB图像和编码图像中学习模式;其架构如图20所示。外观流将静态图像作为输入,而时间流将图像序列作为输入。均方误差函数用于解决回归问题。一个简单的融合方法,即平均池,用于融合两个网络的输出ADE任务。

img

图20. [198]的方法来估计抑郁症的严重程度。外观流将静态图像作为输入,而时间流将图像序列作为输入。一个简单的融合方法,即平均池,融合两个网络的ADE任务的输出。

总结[28,30,31,197-200],可以注意到它们具有以下一般特征:(1)它们利用大规模数据库(例如,CASIA、VGG等)为了通过使用深度架构来预训练它们的深度模型(例如,谷歌网、VGG、ResNet等)。(2)他们通过对抑郁症数据库进行微调来提高深度模型的性能,例如,AVEC 2013和AVEC 2014等。(3)此外,有些研究还试图通过设计一个特定的损失函数来提高抑郁识别率。

img

图21. [201]第201话.面部图像由OpenFace工具包获得[171]。然后设计了一个典型的2D-CNN用于特征表示,以生成有区别的特征图。为了提取信息特征,设计了局部和全局自注意网络。为了在多尺度特征映射上获得尺度不变的特征表示,使用WSPP。此外,ADE采用了两个全连接层和一个均方误差(MSE)损失层。

img

图22. [31]的方法来估计抑郁症的严重程度。该方法分为五个步骤:(1)从视频中提取多通道人体行为基元;(2)将人体行为基元转换为具有多个频率模式的频谱信号;(3)利用频谱信号的对称性,去除高频模式,保留视频中人体行为的判别信息;(4)从光谱信号构建多通道幅度热图和多通道相位热图;(5)使用1D-CNN和人工神经网络(ANN)来估计抑郁症的严重程度。

有趣的是,也有人尝试从头开始为ADE训练深度模型。与微调深度模型相比,这也可以激励ADE。2020年,Song等人[31]提出了另一种用于抑郁症识别的新型多尺度架构(图22)。在其中,人类行为基元,即AU、注视方向和头部姿势,基于它们的出现(二进制结果)或强度(实值或序数结果)作为逐帧特征表示来考虑。采用谱热图和谱向量来挖掘表达行为的多尺度表征,然后输入到1D-CNN和人工神经网络(ANN)进行ADE。所提出的方法在AVEC 2013和AVEC 2014数据库上获得了令人满意的性能(见表4)。

此外,He等人。[201]介绍了一种新的网络,该网络结合了2D-CNN网络和抑郁症识别的注意力机制。该方法使用集成架构-深度局部全局注意力卷积神经网络(DLGA-CNN)用于ADE,其使用具有注意力机制的2D-CNN和加权空间金字塔池(WSPP)来建模全局特征。设计了两个分支:基于局部注意力的CNN(LA-CNN)专注于局部补丁,而基于全局注意力的CNN(GA-CNN)则对整个面部区域的全局特征进行建模。为了从这两个分支中学习互补模式,引入了基于局部-全局注意力的CNN(LGA-CNN)。在特征聚合后,采用WSPP提取凹陷表征。更重要的是,与以前的方法相比,这种方法没有利用大规模数据库来预训练深度模型,而是被认为是ADE的端到端方案(见图21)。 [202]还引入了一种新的架构,即深度残差回归卷积神经网络(DRR_DepressionNet),以学习抑郁模式。

ADE的空间要素要点:

1.表4表明,到目前为止,大多数使用DL的研究都采用了2D-CNN和其他架构来估计抑郁症的严重程度。此外,注意[180]也被用于抑郁症识别[201]。在预处理方面,主要使用MTCNN、OpenFace、Dlib等工具包对人脸区域进行检测和裁剪,为抑郁症检测打下坚实的基础。

2.与基于音频的ADE类似,1D-CNN和2D-CNN也是ADE的流行深度架构。出
78篇综述文献,25篇文献涉及视频方式。然而,过拟合将是训练过程中的一个问题,这是ADE任务中的主要挑战。

3.表4列出了静态图像ADE的综述方法。从表4中可以看出,在AVEC 2013上获得最佳性能,RMSE为7.97 [198],在AVEC 2014上获得最佳性能,RMSE为7.15 [31]。此外,AVEC 2014上的性能优于AVEC 2013,原因是AVEC 2014包含ADE的两个任务。例如,在[201]中,AVEC 2013和AVEC 2014的RMSE分别为8.39和9.30。

4.为了获得更高的ADE准确性,一些研究没有利用深度预训练模型的优势,相反,从头开始训练深度模型用于ADE,例如,[201,202]和[31]这是ADE研究的未来。

从图像序列中学习ADE的时间特征

虽然基于单个图像特征的判别模式已被广泛采用在ADE任务中,并取得了良好的性能,这些工作仍然忽略了时间信息,可能是有用的ADE任务。为了清楚地描述所综述的文献,我们还详细介绍了ADE时间线为2017年至2021年的文献。

在2017年,[28]是采用深度学习从静态图像中检测抑郁症的初步尝试。在他们提出的框架中开发了一个双流网络,以使用面部图像和光流特征来学习抑郁模式(图23)。引入AppearanceDCNN和Dynamics-DCNN对抑郁症识别的静态和动态模式进行建模。外观DCNN包括两个步骤。第一步包括从头开始训练模型在公共CASIA WebFace数据库中,有来自10,575名受试者的494,414张图像[214]。在此之后,深度模型包括与面部结构相关的判别表示,这可以为ADE任务提供足够的信息。然而,预训练的模型不能直接用于ADE。第二步是微调ADE的预训练模型。基于AVEC2013和AVEC2014的ADE任务可以从机器学习的角度被视为回归问题。因此将softmax损失函数转化为ADE的欧几里德损失。为了进一步对几个连续视频帧之间的动态进行建模,为Dynamics-DCNN计算光流位移。利用光流法提取人脸的细微动态模式和运动信息,减少视频中的冗余信息。特别是,该研究利用了现有大型模型在小型数据集上预测BDI-II分数的能力。最重要的是,[28]为后续基于深度学习进行抑郁症识别和分析的工作提供了一定的启发。Appearance-DCNN和Dynamics-DCNN的详细架构如图23所示,24为ADE。

img

图23.使用深度网络预测抑郁状态的模型[28]。对于第一分支,将面部图像馈送到外观DCNN中以获得静态特征表示。在第二分支中,光流被输入到动态DCNN中以对面部动态进行建模。然后,通过池化(即,平均和聚集)来自两个分支的每个帧的两个输出。

img

图24.用于ADE的图23的外观-DCNN和动态-DCNN的详细架构。上述两个分支使用不同的预处理和预训练方法,但使用相同的深度网络架构来学习特征。然后,对两种结构的预测结果进行融合,得到总体BDI-II得分。

在2018年,为了解决这个问题,Jazery等人[27]提出使用C3 D和RNN从视频片段中提取两个不同尺度的时空特征,用于抑郁症识别。拟议的框架由两个组件组成:松散和紧密规模特征提取组件,它们使用深度模型的微调和时间特征聚合。C3 D Tight-Face模型用于学习紧(即高分辨率)特征,而C3 D Loose-Face模型在较大的面部区域上进行训练以学习全局特征。然后采用RNN对C3 D紧脸模型和C3 D松脸模型学习到的时间特征进行建模。最后,使用平均操作进行评估。[27]的主要贡献是在不同尺度上学习面部特征的时间框架。此外,不同的特征聚合阶段可以联合收割机组合来自不同尺度的特征,这可以有益于抑郁水平的评估(参见图25)。

img

图25. [27]的框架的管道用于从视频中使用Deep C3 D和RNN估计抑郁症的严重程度。在两个不同的尺度上提取鉴别特征。C3 D Tight-Face模型学习紧(即,高分辨率)特征表示,而C3 D Loose-Face模型在更大的面部区域上训练以学习全局特征。基于C3 D紧脸模型和C3 D松脸模型的输出,采用RNN对时间特征进行建模。最后,使用平均操作来生成预测。

img

图26.用于ADE的[198]方案的流水线,具有来自视频的局部和全局C3D。视频剪辑由MTCNN工具包进行预处理。然后,基于C3D的两个不同尺度的区别性特征被提取和连接。之后,使用平均函数来汇集用于估计抑郁分数的最终特征。

2020年,梅洛等人[198]提出了一种不同C3 D架构的组合,从全脸和局部区域学习时空模式,并进一步将其与3D全局平均池(3D-GAP)结合用于评估抑郁症。局部C3 D结构学习眼睛区域的区别信息,而全局C3 D结构侧重于学习基于整个面部区域的时空模式。此外,3D-GAP还用于聚合来自最后一个卷积层的时空特征(参见图26)。在AVEC 2013和AVEC 2014数据库上对所提出的方法进行了评估,与最新方法相比,该方法获得了改善的性能,均方根误差分别为8.26和8.31(见表4)。

同年,Uddin等人[32]使用LSTM从视频数据中建模序列信息。通过深度CNN提取深度面部表情特征,然后通过时间中值池化(TMP)进行池化,以馈送用于ADE的LSTM模块。在两个数据集(AVEC 2013和AVEC 2014)上进行了各种实验,表明所提出的方法优于大多数现有方法(见表4)。他们的贡献是,体积局部方向数(VLDN)的动态功能被设计来模拟面部区域的琐碎情绪。

随后,在[205]中,开发了一种新的3D框架,多尺度时空网络(MSN),以学习视频剪辑的特征信息。几个并行卷积层被用来从面部表情中学习相当大的时空变化。该模型采用了几个感受野,以最大限度地利用面部区域的不同空间区域进行ADE(见图27)。

img

图27. [205]中ADE 的 MSN。在这个框架中,几个并行卷积层被用来从面部表情中学习相当大的时空变化。该模型采用多个感受野来捕捉抑郁的多尺度模式。

2021年,几项研究[207,208]对抑郁症的严重程度进行了评估。[207]提出了一个端到端的智能系统,从整个视频剪辑生成有区别的表示。具体来说,结合时空特征聚合模块(STFAM)的3D-CNN在AVEC 2013和AVEC 2014数据上从头开始训练,可以学习抑郁症的信息模式。在STFAM中,通道和空间注意机制以及聚合方法,即3D DEP-NetVLAD,被集成到基于特征图的紧凑特征捕获。介绍了案例研究,以评估拟议的ADE智能系统的适用性(见图28)。

img

图28. [207]的ADE架构。这个框架有以下步骤。首先,面部图像由OpenFace工具包裁剪和对齐。第二,3D-CNN提取与抑郁症症状相关的局部和时空特征表示。第三种是时空特征聚合模块(STFAM)在局部特征上聚合区分性特征。在STFAM输出的基础上,采用SPP层来表示多尺度。最后,使用全连接层和MSE损失函数来估计最终的BDI-II分数。

同样在2021年,提出了一种名为最大化和差异化网络(MDN)的新DL架构,以模拟与抑郁症密切相关的面部表情变化[208]。MDN的设计没有3D卷积,并利用由两个不同的块学习的判别性时间模式来模拟平滑或突然的面部变化。最后,他们设计了100层和152层的模型,并在AVEC 2013和AVEC 2014数据库上验证了深度模型(见图1和图2)。(图29和30)。在AVEC2013和AVEC2014数据库中,所提出的模型分别获得了7.55和7.65的竞争性均方根误差(见表4)。

img

图 29. [208]中混合密度网络(MDN)模块的细节。该模块由两个模块组成。左边的模块是一个最大化模块,用于对时空模式进行建模。特征图是 X ∈ R N × T × H × W × C X\in\mathbb{R}^{N\times T\times H\times W\times C} XRN×T×H×W×C,其中 N N N T T T H H H W W W C C C分别表示批量大小、时间深度、高度、宽度和通道数, l 1 l_1 l1 l 2 l_2 l2,……, l N l_N lN表示最大化模块的分支, x i x_i xi表示第 i i i个分支的输出, z = { ∪ n x n } z=\{\cup_n x^n\} z={nxn}是最大化模块的输出。时间差分模块(右边)学习时空变化。这里, i 1 i_1 i1 i 2 i_2 i2,……, i N i_N iN表示差分模块的分支, h i h_i hi表示第 i i i个分支的输出, u = { ∪ n 1 h 1 } u=\{\cup_{n}^1 h^1\} u={n1h1}是差分模块的输出。最后,将这两个模块组合起来以获得最终输出。

img

图30. [208]的MDN结构.首先,通过MTCNN对人脸图像进行裁剪和对齐。其次,3D残差网络[215]在VGGFace 2数据集上进行预训练,用于图像分类。第三,结合MDN模块的3D残余深度模型在AVEC 2013和AVEC 2014上进行微调,以计算BDI-II分数。

ADE的时间特征总结:

1.与静态特征相比,图像序列能够从视频中捕获短期和长期的时空信息。这可以改进用于ADE的深度判别模型的训练。

2.从训练的角度来看,大多数文献包括预训练和微调阶段的ADE。到目前为止,没有端到端的ADE从图像序列的方案

3.总结本节(第4.4.2节)中的结果,大多数方法都执行了重复性测试。到目前为止,[208]的方法在AVEC 2013上获得了最佳结果,RSME为7.55,[205]的方法在AVEC 2014上获得了最佳结果,RMSE为7.61。

4.为了获得更好的ADE性能,不同的研究试图采用微调或从头开始训练来训练深度模型。

5.从训练的角度来看,大多数的研究包括预训练和微调阶段的ADE。到目前为止,还没有端到端的ADE从图像序列的计划。

用于多模态融合的深度ADE网络

除了上述仅使用一种模态的方法(音频时,参见第4.3.1节,视频时,参见第4.4节)之外,多模态融合方法可以增强抑郁症预测的性能。2015年,Chao等人[216]提出了一种使用视听线索的多模态ADE系统。在该框架中,使用预训练的2D-CNN模型从外观图像中学习深度特征。LSTM-RNN用于从视听特征中学习时间模式。他们的贡献是表明,DL方法也可用于ADE。它们为情感计算提供了新的推动力
随后,出现了大量的研究使用ADE情感计算。

在2017年,1D-DCNN和DNN方法的组合被提出用于ADE [125],使用不同的模型来结合联合收割机的视听特征和文本输入。对于每一种模式,手工制作的特征被输入到1D-DCNN中以模拟全球规模的特征,然后输入到DNN中以评估PHQ-8评分。为了提高抑郁症的识别性能,提出了一种多模态融合的方法。随后,将三个单一模型(音频,视觉,文本)融合在一起并输入DNN,以确定由PHQ-8抑郁量表定义的抑郁严重程度。此外,段落向量(PV)被提出来学习文本描述符的分布式表示。此外,提出了一种新的视频特征:位移范围直方图(HDR),能够学习的位移和速度的面部标志。在AVEC 2017挑战上进行实验。它获得了相当的性能,RMSE为5.97,MAE为5.16在测试集。在[125,217]中,提出了一种基于视听和文本描述符的混合抑郁识别框架。在这个框架中,1DDCNN和DNN首先被用来对抑郁症受试者和健康对照者进行分类。在[126,218]中,[217]的方法也被用于预测抑郁症的严重程度,具有很好的性能(见图31)。

img

图31.多模态抑郁症分类的浅层和深层结构的整合[126]。该方法包括三个模块:(1)视听DCNN-DNN预测模块。1D-CNN从视听信号中手工制作的音频/视频特征中学习高级特征。然后,通过将高级特征输入到DNN来估计PHQ-8分数,然后反馈到DNN以获得最终预测(由黑色矩形包围)。(2)分类模块。采用PV-SVM来检查是否存在精神分析症状,例如,睡眠障碍和感觉(蓝色矩形)。(3)抑郁症分类模块。为了得到基于(1)和(2)的结果的最终分类结果,采用随机森林方法将参与者分类为健康对照和抑郁受试者(红色矩形)。 (在此图中所引用的颜色图例的解释,读者可参考本文的网络版。)

2018年,一个新的双相情感障碍语料库被发布用于学术研究[152],然后用于AVEC 2018双相情感障碍子挑战。基于AVEC2018数据库,[220]提出了一种融合DNN和随机森林的新型架构,用于双相抑郁症分析。在[221]中,为了解决双相情感障碍(BD)在不同发作之间的不规则变化,设计了一种新的架构IncepLSTM,能够将Inception模块和特征序列的LSTM结合起来,学习BD分析的多尺度时间模式。在AVEC2018数据集上进行了实验,验证了该方法的有效性。其他研究也采用了传统的机器学习方法进行BD识别[222,223]。然而,到目前为止,AVEC 2018数据库还没有广泛应用于情感计算。 值得注意的是,[219]提出了一种新的方法,将无监督学习,迁移学习和来自语音的分层注意力整合在一起,以评估抑郁症的严重程度(见图32)。该方法在AVEC 2017抑郁症挑战中进行了评估,RMSE为5.51,MAE为4.20。

img

图32.分层注意力和自动编码器架构的组合被提出用于抑郁症识别[219]。首先,基于自底向上的策略训练了一个层次化的注意力自动编码器网络,其中具有注意力机制的编码器生成一个句子级编码器来构造整个上下文的隐藏向量。然后,在句子级注意力上执行向量,以生成临床访谈的潜在表示。其次,将该表示输入到解码器中以重新捕获输入特征。第三,将句子的表示输入Bi-LSTM以评估PHQ-8分数。之后,自动编码器的参数被冻结。然后通过一个语音识别任务捕获其注意力,并将其转化为一个用于ADE的分层抑郁检测系统。

2020年,为了学习音频和视频线索之间的辅助信息,提出了一种新的时空注意力(STA)架构和多模态注意力特征融合(MAFF)方法,从视听线索中提取多模态特征,用于评估抑郁症的严重程度,即,BDI-II评分。所提出的方法包括2D-CNN、3D-CNN和一个注意力机制来学习深度特征。在AVEC 2013和AVEC 2014数据库上进行了大量实验,证明所提出的深度架构优于大多数现有架构[169](见图33)。总之,这些研究利用成熟的DL技术(例如,2D-CNN,3D-CNN,RNN,LSTM)来学习抑郁估计的深度判别模式。此外,注意力机制用于从深度学习的特征中学习显著模式。 此外,在AVEC 2019的“用AI子挑战检测抑郁症(DDS)”中,多项研究也专注于采用AI技术来估计受试者抑郁症的严重程度(表4)。

img

图33.多模态时空架构于深度凹陷辨识之管线。该方法首先将谱图/视频片段输入时空注意力(STA)网络,然后将最后完全连接的层的特征用于音频片段级特征(ASLF)和视频片段级特征(VSLF)。随后,使用本征演化池化(EEP)将ASLF和VSLI池化到ALF和VLF。最后,支持向量回归(SVR)用于估计BDI-II评分[169]

ADE多模态融合总结:

1.从模态的角度来看,多模态融合方法在每个数据库上都产生了最佳的ADE性能。在AVEC 2013和AVEC 2014数据库中,Niu等人[169]获得了最佳准确度,RMSE为7.03,MAE为5.21。虽然多模态融合产生ADE的最佳性能,但该方法非常当融合音频和视频提示之间的互补信息时,这是复杂的。因此,有大量的文献集中在视频模态上,以学习面部区域周围的区分模式,这可能是由计算机视觉和DL的成功所解释的。

2.从数据库的角度来看,AVEC 2013和AVEC 2014获得了最多的关注。原因是音频和视频剪辑包含在AVEC 2013和AVEC 2014数据库中。因此,可以利用DL来从视频剪辑学习紧凑表示。对于DAIC数据库,数据库组织者仅提供音频数据样本,限制了其用于ADE。

3.从DL的角度来看,1D-CNN和2D-CNN通常用于从静态图像和手工特征中学习区分模式。为了对来自视频序列的序列信息进行建模,3D-CNN也被大量使用。不同的变化基于3D-CNN也被提议用于估计抑郁症的严重程度[208]。

4.总结本节(第4.5节)中的结果,所审查的方法获得的准确度与单模态ADE方法获得的准确度相当。通过[169]获得最佳准确度:AVEC 2013上的RMSE为8.16,AVEC 2014上的RMSE为7.03。

此外,自2015年以来,也有研究没有采用DL技术进行抑郁估计,(例如,[33,224 -227])。特别是,Sadari等人。[226]使用有序逻辑回归进行抑郁症识别,并提出了一种新的方法。此外,基于AVEC 2017的数据库,已经提出了许多用于抑郁症识别的方法。在[228]中,分析了地面实况与抑郁症严重程度估计之间的关系。他们设计了一个系统,并在AVEC 2017抑郁症数据库上进行了验证。他们发现抑郁症的识别是一个有序的问题。此外,He等人。[227]介绍了一种有前途的特征描述符,称为中值鲁棒LBP-TOP(MRLBP-TOP),可以从图像序列中学习不同尺度的模式。Dirichlet过程FV(DPFV)也被提出来学习全局模式从段级特征中。双相抑郁症(BD)在情感计算领域也引起了关注。根据到表6,已经考虑了各种方法来估计BD. DCNN(1D-CNN,2D-CNN,3D-CNN),LSTM和DNN继续用于提取表征BD严重程度的深层特征。

表6,BD数据库上多模态抑郁症识别的综述方法的性能总结。

image-20240911174708975

开放的问题和有前途的方向

本节提出了开放的挑战,在ADE和建议有前途的未来方向。因此,我们的目标是:(1)推广基于AI的ADE框架,使其适用于真实的生活,特别是医院、精神病中心等。这包括评估和完善临床应用原型,并推广其可用性、可扩展性和非实验室使用能力。(2)大大促进未来对ADE的研究。在讨论中,我们特别关注数据库的可用性、代码的透明性、研究小组之间的合作以及训练样本的不平衡分布。

数据库的可用性

由于抑郁症数据的敏感性,很难收集各种数据来估计抑郁症的严重程度。因此,数据的可用性是一个主要问题。首先,与面部表情识别任务相反,迄今为止几乎没有可用的数据库。基于当前的文献综述,可以注意到广泛使用的抑郁症数据库是AVEC 2013、AVEC 2014、DAIC-WOZ。值得注意的是,AVEC 2014是AVEC 2013的子集。第二,不存在多模态(即音频、视频、文本、生理信号)
数据库来学习ADE的综合抑郁表征。现有的数据库只包括两三种模式。虽然DAIC数据库包括三种形式(视听和文本),但主办方没有提供原始视频,给ADE带来了一定的不便。第三,数据集的有限规模限制了抑郁症评估的研究,特别是当使用DL时。例如,AVEC2013仅包含训练集、开发集和测试集各50个样本。为了解决这一瓶颈,需要有效的方法来扩充有限数量的标注数据。四是数据采集标准要规范。目前,不同的组织者采用一系列的条件、设备和配置来收集多模态数据。

数据和算法的透明性

尽管ADE取得了重大进展,但在临床环境中的性能仍有很大的改进空间。如今,在使用web应用的算法的情感计算中几乎没有共享(例如,Github或个人网站)。在情感计算领域,DAIC-WOZ数据集已经被广泛应用于情感数据挖掘。然而,DAIC-WOZ的出版商认为,由于与精神障碍有关的个人属性的敏感性,很难将数据作为原始视频剪辑提供。因此,我们鼓励所有研究人员也共享原始数据,而不仅仅是手工制作的特征,或者至少在共享不可行的情况下,安排在安全的计算环境中访问数据。

至少,代码应该公开,让不同的研究人员能够验证算法的效率,从而为临床应用奠定坚实的基础。例如,特征提取对于集成ADE是重要的。然而,目前的瓶颈是要知道哪些特性适合ADE。假设学习用于评估抑郁症严重程度的特征的主要方式是使用DL,则应当设计最适合于该任务的网络。目前,还没有为ADE定义普遍接受的标准DL架构。

协作

随着不同学科的重大进展,跨学科合作对ADE至关重要。对于情感计算的主题,相关领域包括心理学,生理学,计算机科学,机器学习等,因此,研究人员应该相互借鉴,以促进ADE的进步。对于基于音频的ADE,深度模型仅表示来自音频的抑郁量表。具体到基于视频的ADE,深度模型仅从面部表情中捕获模式。但生理信号也包含与ADE密切相关的重要信息。因此,不同的研究人员应该共同努力,建立多模式的DL方法的临床应用。

训练样本分布不平衡

除了这些问题之外,另一个主要问题是训练样本的不均衡分布。这是因为抑郁症的严重程度是通过不同的离散数值来评估的。对不平衡数据建模有两个挑战。首先,用不平衡数据进行训练可能导致在少数类别中获得较差的训练模型性能[233]。其次,在不平衡数据集上训练模型会显著影响验证/测试集性能。Jeni等人[234]研究了由于验证集中的不平衡而导致的偏态效应。为了解决这一不平衡问题,调查结果基于几个评价指标,例如:准确性、F1分数等。为了证明这种不平衡,考虑AVEC 2014,这是一个在情感计算中广泛使用的流行数据库。如第3节所述。2、根据抑郁症的严重程度,BDI-II评分可分为四个等级,从轻度到重度,即,0-9,10-18,19-29,30-44。如图34所示,与其他类相比,0-9类具有更多的参与者,而30-44类具有更少的参与者。因此,数据库提供者应考虑数据不平衡的问题,以便于训练阴影或深度模型进行抑郁症分析。

img

图 34. AVEC2014 的训练集、开发集和测试集中贝克抑郁量表第二代(BDI-II)得分的分布情况。BDI 得分范围是从 0 到 63(无或极轻微抑郁:范围为 0 到 13)、(轻度:范围为 14 到 19)、(中度:范围为 20 到 28)、(重度:范围为 29 到 63)。AVEC2014 的最大 BDI-II 得分是 45。Y 轴是 BDI-II 得分范围内的样本数量。

不同尺度的融合

为了提高性能并从音频和视觉模态中捕获互补模式,还应考虑用于ADE的融合方法。在[154]中研究了融合不同尺度的ADE方法,例如特征融合,评分融合,决策融合和混合融合。最后,他们发现分数融合产生了最好的分类率。在[235]中,采用特征融合和模型融合来估计抑郁症的严重程度,发现模型融合获得了ADE的最佳性能。因此情感计算的研究者应该考虑融合的方法来提高ADE的性能。此外,他们应该考虑不同的融合方法的潜在意义,基于不同的数据库,为不同的任务。

结论

沿着DL技术的发展,多种基于DL的ADE方法也被提出,并取得了良好的效果,为ADE系统的临床应用奠定了基础。本文对现有的ADE方法进行了全面的综述,从多个角度对该主题进行了回顾,同时也强调了许多有待进一步探索的问题。作为一种精神疾病,抑郁症的诊断依赖于多个领域的共同努力,包括临床心理学,情感计算和计算机科学。基于上述问题,开发自动化、客观化的评价系统,无论是学术研究还是临床应用,都具有重要的价值。目前,仍有几个问题有待解决:(1)区分MDD和其他类型抑郁症的能力[102];(2)仅从少数训练样本中学习的能力;(3)通过手工和深度学习方法提取区分特征的能力;(4)通过融合方法来表示和联合收割机组合来自音频和视觉线索的互补信息的能力。

最后,我们强调了在临床上评估抑郁症的严重程度的相当大的潜力。尽管近年来取得了很大的进展,但为了辅助临床应用,还需要进行更多的研究,以收集更多的数据,探索一系列方法,并设计和实施用于临床的ADE系统。

今后,我们将处理以下问题:

1.由于训练样本集较小,一方面,我们应该鼓励数据组织者为ADE共享私有数据样本。另一方面,我们将尝试收集一个多模态数据库,包括音频、视频、文本和生理信号(即,EEG、ECG等)。这将允许不同的模态来增加用于训练ADE模型的数据样本。此外,训练数据的数量在评估抑郁症的分类/严重程度中起着至关重要的作用。如表3所示,列出的数据库仅包含少数将在抑郁评估阶段记录的受试者。虽然有些数据库是公开的,用于研究目的,但它们不能合并成一个大型数据库。原因是不同的数据库以不同的语言、不同的国家收集,并使用不同的标签。因此,我们将考虑不同的数据增强方法(例如,、GAN)来扩大数据样本的数量,以提高ADE的性能。 此外,本发明还提供了一种方法,我们希望鼓励在不同平台上共享代码。

2.为了提取多模态线索的信息特征,我们将考虑个人的DL方法的属性。同时,我们将利用数据的属性来提取ADE的信息性和区分性特征。此外,我们将与不同学科的研究人员合作,提取与抑郁症密切相关的更多信息特征。

3.为了学习手工特征和深度学习特征之间的互补模式,将为ADE设计鲁棒方法。虽然深度学习的功能已被证明可以获得有前途的ADE性能,但传统的手工制作的功能不应被忽视。因此,我们将深入研究手工制作和深度学习功能之间的互补性,为ADE建模区分架构。

音频、视频、文本和生理信号(即,EEG、ECG等)。这将允许不同的模态来增加用于训练ADE模型的数据样本。此外,训练数据的数量在评估抑郁症的分类/严重程度中起着至关重要的作用。如表3所示,列出的数据库仅包含少数将在抑郁评估阶段记录的受试者。虽然有些数据库是公开的,用于研究目的,但它们不能合并成一个大型数据库。原因是不同的数据库以不同的语言、不同的国家收集,并使用不同的标签。因此,我们将考虑不同的数据增强方法(例如,、GAN)来扩大数据样本的数量,以提高ADE的性能。 此外,本发明还提供了一种方法,我们希望鼓励在不同平台上共享代码。

2.为了提取多模态线索的信息特征,我们将考虑个人的DL方法的属性。同时,我们将利用数据的属性来提取ADE的信息性和区分性特征。此外,我们将与不同学科的研究人员合作,提取与抑郁症密切相关的更多信息特征。

3.为了学习手工特征和深度学习特征之间的互补模式,将为ADE设计鲁棒方法。虽然深度学习的功能已被证明可以获得有前途的ADE性能,但传统的手工制作的功能不应被忽视。因此,我们将深入研究手工制作和深度学习功能之间的互补性,为ADE建模区分架构。

4.多模态数据不仅增加了训练模态的数据量,而且还捕获了ADE的判别模式。为了提高多模态ADE的性能,我们将考虑不同模态的互补模式,并借鉴不同领域研究人员的经验。总之,这将促进ADE在临床应用中的研究,以造福于未来的抑郁症患者。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值