论文阅读:Early depression detection in social media based on deep learning and underlying emotions

题目:

Early depression detection in social media based on deep learning and underlying emotions

基于深度学习和潜在情感的社交媒体早期抑郁症检测

Abstract:

抑郁症是对公共健康的挑战,经常与残疾有关,也是导致自杀的原因之一。许多抑郁症患者使用社交媒体获取信息,甚至谈论他们的问题。一些研究已经提出在这些网络环境中检测潜在的抑郁症用户。然而,效果不理想仍然是实际应用的障碍。因此,我们提出了一种基于卷积神经网络的社交媒体早期抑郁症检测方法,该方法结合了与上下文无关的词嵌入和早晚期融合方法。将表情符号中编码的潜在情绪的重要性考虑在内,对这些方法进行了实验评估。结果表明,所提出的方法能够检测出潜在的抑郁用户,精度达到0.76,与许多基线(𝐹1 (0.71))相比具有同等或更高的有效性。此外,表情符号的语义映射可以获得明显更好的结果,包括更高的召回率和查准率,分别提高了46.3%和32.1%。在基准词嵌入方法下,表情符号语义映射的召回率和查准率分别提高了14.5%和40.8%。就整体有效性而言,这项工作同时考虑了单独的嵌入和基于融合的方法,推进了最先进的技术。此外,研究还表明,抑郁症患者通过表情符号表达和编码的情绪是问题的重要暗示证据,也是早期发现的宝贵资产。

1. Introduction:

抑郁症是一种遗传、生物、环境和心理等多种因素共同作用的心理障碍[1,2]。患有这种疾病的人往往有一系列症状,例如:精力不足、食欲改变、焦虑、注意力不集中、优柔寡断、感觉毫无价值、内疚或绝望。尽管在预防、诊断和治疗方面取得了进步,但抑郁症患者的数量仍在不断增长[2,3]。事实上,抑郁症是全球健康问题和残疾的主要原因。根据世界卫生组织(WHO)最近的估计,全世界有超过3亿人患有此病[2]。报告还显示,2005年至2015年间,病例数量增加了18.4%。抑郁症也是自杀死亡的主要原因,每年自杀死亡人数接近80万[2]。这强调了这种疾病的严重性,以及制定策略以改善诊断和抑制其发展的必要性。

尽管治疗抑郁症的方法有很多,但世界上只有不到一半的患者得到了适当的治疗[3]。许多因素导致治疗缺失,包括缺乏诊断和不准确甚至错误的评估。在这种情况下,需要改进检测抑郁症的过程,这是一个相关的挑战。因此,一个很有前途的补充方案是利用社交媒体中产生的数据。

Facebook、Twitter和Reddit等社交媒体平台的出现,让人们可以直接、全面地分享他们的个人经历、主意或想法。这些发布在社交媒体上的信息除了带有明确的含义外,还包含了关于其作者的隐含信息。因此,如[4]所言,社交媒体也使人们找出个体抑郁症出现的迹象成为可能。

在这种情况下,社交媒体是一种可以用来检测抑郁症患者的资源,尤其是因为患有抑郁症的人往往会隐瞒自己的健康状况,这使得专家很难诊断,但这些信息可能隐藏在社交媒体上发布的内容中。

因此,探索语言在社交媒体上的使用将成为一个很有前途的方向。具体来说,利用社交媒体的早期检测,可以更有效地采取预防措施。对于大规模数据分析任务,既可以使用由专家执行的直接评估方法,也可以使用机器学习等自动化方法[5]。

机器学习在面向模式的困难问题上取得了令人印象深刻的成果[6],例如语音识别、图像和视频中的对象识别以及自然语言处理(NLP)。然而,关于抑郁症的检测,由于难以从社交媒体上的文本中提取判别特征,使用传统的分类方法可能无法成功[7]。最近的替代方案是使用诸如深度学习(DL)之类的高级技术。DL在许多应用中取得了令人惊讶的结果(例如,健康诊断[8]、图像合成[9]和自动驾驶[10])。此外,还处于起步阶段,但深度学习在抑郁症的早期检测方面也显示出了令人鼓舞的结果[11,12]。

早期发现对于抑郁症治疗至关重要,因为它可以采取预防措施来减轻问题,特别是考虑到患者的生命时刻处于危险之中。尽管如此,许多提案只考虑响应性解决方案,而忽略了时间问题。然而,必须考虑到时间因素,因为当受试者明确表现出问题时可能为时已晚,治疗可能无法及时到来,或者生活质量可能已经受到严重影响。

多年来,人们开发了不同的方法来应对社交媒体中的抑郁检测任务,主要集中在文本表示的提取[4,13],主要依赖于基于深度学习的文本嵌入[12,14]。但是,根据在实际环境中部署的预期情况,拟议的办法仍然没有取得令人满意的效果。一个听起来不错的替代方案是使用数据融合策略,旨在根据不同的视图(模型)及其对数据的互补性,捕捉每个系统的最佳效果。然而,对于抑郁症的检测,很少有研究对其进行探索,几乎没有评估组合表征模型的研究。

因此,本研究提出了一种使用DL和早晚期融合方法在社交媒体中检测早期抑郁症的方法。它试图改进识别潜在抑郁用户的过程,并使用不同的词嵌入作为特征表示进行实验评估。总之,本研究的主要贡献有:

  • 我们提出了一种新的方法,该方法探索使用早期融合和晚期融合来帮助早期发现社交媒体用户的抑郁症。
  • 我们进行了广泛的实验,并证明所提出的方法在各种场景下优于基线。
  • 我们展示了表情符号对检测性能的决定性作用,因为它们可以表达用户的感受和情绪。

本文的其余部分组织如下。第2节描述了相关的背景概念。第3节介绍了相关工作,第4节描述了提出的方法。第5节介绍了实验设置。第6节展示了研究结果和讨论。第7节提出挑战和研究方向。最后,第8部分给出了结论和未来的工作。

2. Background

2.1 Deep Learning 深度学习

DL是机器学习(ML)的一个子领域,它通过学习将知识表示为概念的层次结构,以此实现强大的能力和灵活性,每个概念都是根据更简单的概念定义的,而更抽象的表示是根据不太抽象的概念计算的[15]。在传统的学习方法中,人类需要从头到尾对特征进行选择,而深度学习则体现了一种通用的学习过程。DL允许由多个处理层组成的计算模型,以学习具有多个抽象级别的数据表示[16]。

卷积神经网络(CNN)和循环神经网络(RNN)都是深度学习网络的典型案例。CNN在图像、视频、语音和音频处理方面取得了突破[16,17],而RNN在文本和语音等顺序数据处理方面取得了重大进展[18]。最近,一些使用所谓transformer方法的架构在一些任务中优于RNN[19]。尽管如此,使用基于CNN的架构来支持文本处理也取得了很好的效果[20-22],这也是本工作的重点。

CNN是一种专门用于网格拓扑数据处理的神经网络[15]。与其他类型的网络不同,CNN至少包含一层卷积滤波器,其面向局部特征提取[23]。CNN广泛应用于计算机视觉,但也被有效地用于文本分类[24]。

2.2 Word Embedding 词嵌入

词嵌入是一种流行的文本表示方式,并已应用于许多任务,重点是自然语言识别,文档分类和情感分析[25]。词嵌入方法为非结构化文本提供了低维向量表示[26]。它具有强大的泛化能力,并遵循分布假设,捕捉到相似的单词往往出现在相似的上下文中[27]。例如,“绿色”的向量表示比“鞋子”更接近“蓝色”,因为它们都指的是颜色。同样,由于语境的相似性,“罗马”与“意大利”的关系就像“巴黎”与“法国”的关系一样密切。这也应该发生在同义词之间(例如,“dog”和“puppy”,“huge”和“enormous”)。总之,词嵌入代表了一组技术,其中单个词在预定义的向量空间中被表示为实值向量,通常具有数十或数百个维度[28,29]。在本研究中,使用词嵌入对社交媒体上的用户帖子进行特征表示。

2.3 Data Fusion 数据融合

数据融合在不同的环境都有应用,经常被应用于信息分类和检索任务中。如果利用得当,数据融合已被证明可以极大提高系统的有效性[30]。数据融合基本上有三种方法:早期融合、晚期融合和混合融合[31-33]。早期融合过程通常是指在训练或评价阶段之前的一组特征的聚合和/或连接,这些特征可能是基于不同的策略提取的。另一方面,晚期融合过程对一组训练好的分类器所做的决策进行“聚合”。一般来说,当使用晚期融合时,其有效性要优于最好的单个分类器[34]。除了晚期和早期融合方法外,还有介于两者之间的混合融合方法。其中最广泛的方法是高斯过程和自动编码器(经典,深度或变分)。在这项工作中,我们利用了早期和晚期融合方法,而更复杂的混合方法则留给未来的具体研究。

2.4. Language and depression detection 语言和抑郁检测

抑郁症影响着许多人,但不幸的是,大多数人都没有意识到自己的疾病,因此,直到症状变得严重才寻求临床干预。所以,研究抑郁症检测的策略就显得非常重要,尤其是因为它直接影响患者的整体健康状况。通过适当的干预措施,我们可以减少甚至避免抑郁症的影响,而早期发现是决定性的第一步。为了完成这项任务,分析个人使用的语言是一种可能的方案,因为抑郁症和语言使用之间存在关系[35,36]。

几项基于社交媒体中语言使用的研究表明,患有抑郁症的人通常会:(𝑖) 谈论更多的人际关系和生活;(𝑖𝑖) 展现个性;(𝑖𝑖𝑖) 变得更加关心自己;(𝑖𝑣) 使用更多的表情符号、负面情绪和否定词;(𝑣) 多用动词、副词、感叹号和问号;(𝑣𝑖) 经常使用语义强的单词(如脏话);(𝑣𝑖𝑖) 不断回忆过去,担忧未来[37]。

语言是人格、社会或情感状态以及心理健康的有力指标。一些研究表明,可以通过检查语言的使用来预测一个人的精神状态,包括抑郁的证据[4,37,38]。因此,社交媒体提供了一个很好的机会,可以主动检测这些用户,并协助他们尽快寻求专业帮助。事实上,考虑到现有信息数量庞大、内容丰富,一些研究已经依赖社交媒体数据进行了这类调查,我们在第3节中对其进行了讨论。

3. Related works

近年来,许多研究人员致力于在社交媒体上检测精神疾病,包括抑郁症[39,40]。社交平台创造了丰富的文本数据和社交元数据来源,以捕捉用户的行为趋势,被认为是一种有前途的公共卫生工具[41]。在这些平台中,Twitter是探索最多的平台之一,许多其他提供商也被探索过,如新浪微博[42,43],Facebook[44,45],以及最近的Reddit[11,37]。考虑到潜在的检测方法,NLP技术和各种分类方法已经被应用于分析文本数据,并通过这些社交媒体评估用户的心理健康[46]。

在这种情况下,为了提高抑郁症的检测能力,进行了许多研究,其中大部分依赖于监督学习。此外,一些工作提出了与经典机器学习分类器一起使用的特征提取方法[4,11,47,48]。在[4]中,作者提出了一种概率分类器,通过分析用户在Twitter上发布的帖子来识别该用户是否容易患抑郁症。为此,从帖子中提取了许多特征,用以代表社交参与、情感、语言风格,以及对抗抑郁药物的谈论。使用支持向量机(SVM),准确率达到70%。

Tsugawa等人[47]调查了推特上的用户活动,以估计抑郁程度。为此,从用户的活动历史中提取了几个特征(例如,使用单词的频率、转发率、提及率、包含URL的推文比例、关注的用户数量和关注者数量)。使用SVM分类器,准确率达到69%。作者还发现,主题模型提取的特征对这类调查很有用。

Twitter一直是抑郁症检测实验中使用最多的网络之一。然而,Losada等人[39]基于Reddit发表的工作开辟了新的发展机会。作者认为,推文中受限的字符数减少了可探索的内容。在Reddit中,字符数量没有限制。[39]中收集和描述的数据包括两组:一组为非抑郁用户的对照组,另一组为抑郁用户。此外,为了评估有效性,考虑到常用的经典测量方法(精确度,召回率和𝐹1)忽略了识别延迟,作者提出了一种早期检测方法来惩罚检测抑郁用户的延迟。该数据集作为试点任务的一部分发布:Early Detection of Depression - eRisk 2017。在提出的方法中(如第5.3节所述),时间(检测延迟)由系统确定抑郁症检测决策所需的博文数量表示。

Errecalde等人[48]应用了一种名为简明语义分析(CSA)的最新策略,以应对社交媒体上抑郁症的早期检测。实上,他们使用术语的时间变化(TVT)开发了一种CSA变体,该变体基于用户在不同时间段的词汇变化作为表示帖子的概念空间。作者发现,使用TVT方法与其他表示法(如词袋法(BoW))相结合,在早期风险检测方面取得了稳健的有效性,在提交给eRisk 2017的最佳方法中名列前茅。

在2017年的eRisk Task中,表现最好的2种方法是由Trotzek等人开发的[13]。所有分类器都从每个用户的文本中提取元语言信息作为特征。此外,还评估了其他特征表示方法,如BoW、段落向量和潜在语义分析(LSA)。分类使用逻辑回归和LSTM。获得最佳结果的模型名为FHDO-BCSGA,它使用了一组基于BoW的逻辑回归分类器,这些分类器具有不同的项和n-gram权重。第二好的模型,名为FHDO-BCSGB,也使用逻辑回归,并依赖于使用段落向量的文档向量化(doc2vec)。

eRisk 2017数据已在随后的一些工作中进行了探索。在[50]中,作者研究了如何更好地在社交媒体中检测早期抑郁风险,目的是优化分类,同时不忽略时间维度。使用了支持向量机、随机森林、kNN和逻辑回归等几种算法,包括通过集成将它们组合在一起,以及使用遗传算法对集成进行优化。结果表明,使用遗传算法和文本极性使检测结果相对于基线提高了16.7%。在[11]中,使用深度学习方法,评估了基于不同单词嵌入的CNN,并使用逻辑回归将其与基于用户级语言元数据的分类进行了比较。使用eRisk 2017集合,这两种方法的组合在早期抑郁症检测中达到了最先进的识别效果。

尽管在抑郁症的早期检测领域已经开展了一些工作,但与现实应用的预期相比,实际效果仍然不令人满意。因此,本研究提出了一套基于dl的特征嵌入模型评估和基于早期和晚期融合方法的分类方法。使用这些策略有两个主要原因:(𝑖) 通过联合使用不同的表示(早期融合),CNN可以交叉捕捉有价值的特征关系,如果没有特征的融合,这些关系将被忽视;(𝑖𝑖) 通过使用一组用不同特征表示构建的CNN模型,将相同数据上的互补观点整合在一起,通常可以实现优于单个预测的性能(晚期融合)

4. Proposed method

这项工作的主要目标是推进社交媒体中抑郁症早期检测的最新技术。为此,我们提出了早期和晚期融合方法,使用不同的词嵌入模型对用户帖子进行特征表示(图1)。另外,我们考虑了[11]中提出的CNN架构作为分类模型。

图1:融合方法: (a)早期融合 (b)晚期融合

图2展示了CNN架构,它被集成到我们的方法中,并在第5节和第6节中描述的所有实验中使用。该架构由一个简单的卷积层组成,包含100个高度为2的滤波器。滤波器的宽度对应于输入嵌入向量的维度。因为没有填充且步长等于1,通过卷积,每个滤波器会生成一个99 × 1的特征映射。在卷积和稠密层中,使用级联整流线性单元(CReLU)作为激活函数[51]。CReLU将只考虑激活正部分的整流线性单元(ReLU)的输出与另一个只考虑激活负部分的ReLU的输出连接起来。因此,输出是原来的两倍。

为了获得每个滤波器的标量,使用1-max pooling方法,得到100维向量。鉴于使用的是CReLU,所以该向量变为200维。然后,输出通过三个全连接(FC)层传播。为了减少过拟合,将dropout正则化技术应用于第一个稠密层的输出。最后,由一个softmax层生成最终输出。

图2:实验中使用的CNN架构

在早期融合中,多个特征嵌入被连接成一个集成的表示,作为CNN的输入。该过程得到了一个更大的特征集,以便更好地表示(图1a)。这种方法需要对CNN的输入层进行修改以支持更大的输入,即使用100 × 600的层来支持融合表示,而不是使用100 × 300输入层。

反过来,在后期融合方法中,对使用独立嵌入训练过后的多个分类器进行整合。在后期融合方法中,最终决策对应于每个模型的单独分类结果的组合。我们采用多数投票方案,在该方案中,最终决策由得票最多的那一类来决定。

我们提出的方法还考虑了帖子中表情符号所表达情感的重要性。具体来说,我们考虑了两种相反的策略:(𝑖) 在第一种策略中,帖子中的所有表情符号都被丢弃;(𝑖𝑖) 在第二种策略中,通过将表情符号映射为具有代表性的术语来保存情感。例如,符号“:(”被术语“sad”所取代。根据文献[37,52],对该方法进行评估,以分析表情符号代表的情绪是否会影响抑郁症用户的识别。这个过程依赖于一个预定义的映射字典。

在这项工作中,词嵌入被用作CNN的输入。与一些研究[53]不同,在这些研究中,嵌入模型通常是从零开始训练的,我们依赖于一种迁移学习策略,其中特征提取模型是用更大的数据集预先训练的,不一定与抑郁症相关。这种迁移学习方法一直是处理小型数据集的流行解决方案。之所以选择预训练模型是因为无法获得与抑郁症相关的大量标记数据。

5. Experimental validation

5.1 Dataset

实验基于eRisk 2017发布的一部分数据[49]。它包含了一组来自Reddit用户的英文消息。该数据集包括来自用户的帖子列表,总共最多2000篇帖子,包含以下字段:标题、日期和文本。我们将标题字段和文本字段连接起来并用于实验。收集的消息按时间顺序组织,包括887名用户的数据(135名标记为抑郁,752名标记为非抑郁)。如[39]所述,在数据集的构建中,抑郁用户是通过找到明确提及诊断的帖子来识别的(例如,“我被诊断患有抑郁症”)。数据集被随机分为训练集和测试集。训练集由486名用户组成(83名为阳性,403名为阴性)。测试集包含401个用户(52个阳性,349个阴性)。训练用户和测试用户之间没有重叠。表1显示了数据集和用户的特征摘要。

表1:数据集和用户统计数据

5.2 Configuration

本实验的原理是模拟监控社交媒体和分析用户帖子的系统。为了模拟这一点,数据被分成十块,每个块按时间顺序包含每个用户信息的10%。第一个块包含10%的最老消息,第二个块包含下一个10%的最老消息,依此类推。以这种方式,例如,通过连接第一个和第二个块,可以获得前20%的最老消息。

该任务分两个阶段进行:训练阶段和测试阶段。测试数据被分成十个块。在这种情况下,每个区块都应该单独处理,因为早期风险检测任务有一个特定的特征:支持在不同时刻可用的部分信息进行分类。起始块包含最古老的帖子,而结束块包含最新的帖子。考虑到实验性质,当处理一个块时,系统可以采取三种可能的行动:将用户分类为抑郁,非抑郁或推迟决策,这表明有必要分析更多的数据块(更多的帖子/时间)。

在早期检测模型中,需要考虑的一个重要参数是预测的最小置信阈值(𝜏)。在每一块中,分类器都会给出一个确定的置信度,用来表示预测类的估计概率。阈值决定了模型是否认为置信度足以将受试者识别为抑郁症,或者是否应该推迟决策并等待更多数据。因此,可以基于不同的概率阈值来评估该模型。对于分类本身,本研究使用了一个简单的启发式规则,即当关联概率𝜌大于(或等于)阈值(𝜌 ≥ 𝜏)时,将用户分配到目标类。在区间[0.5,1]内评估多个置信阈值,步长为0.05。

对于整个训练数据集,只执行一次训练。另一方面,对10个测试集块进行增量处理。这意味着,在每个步骤中,对于每个用户,到那时为止的所有帖子都会被聚合和分析,以支持决策。只有在包括最后一个块之后才做出用户没有抑郁的决定。事实上,这意味着系统没有达到足够的置信度来将用户归类为抑郁症,也没有更多的数据可供进一步分析。评估过程依赖于数据库提供的基本事实。对于特征提取和CNN的输入,我们使用了许多预训练的嵌入模型,特别是基于fastText[54]和GloVe[55]的模型。fastText 300维嵌入是使用来自UMBC webbase语料库(W)和statmt.org新闻数据集(N) (FastText WN)以及Common Crawl (FastText Crawl)的数据进行训练的。GloVe模型使用Gigaword 5和维基百科2014的数据进行训练,并分别命名为“GloVe WN”和“GloVe Crawl”。表2给出了这些模型的更多细节。

表2:实验中使用的词嵌入的特点

表2总结了本研究中使用的嵌入模型的特点。它包含三个基本信息:作为词嵌入的生成向量的维数;用于训练嵌入模型的数据库中的token数量;以及每个模型中词向量的总数。每个token表示一个符合(例如,一个单词)。例如,考虑FastText Crawl模型,它可以为200万个不同的单词生成一个嵌入向量。

在分类阶段,卷积神经网络接收每个用户的帖子作为输入,考虑该帖子的前100个词向量(即,对于每个帖子,我们选择前100个单词,并使用词嵌入生成的向量表示作为CNN的输入)。使用前100个单词是为了与主流基线保持一致,但可以减少使用的词数,因为每个帖子的平均字数是34.58个。在此步骤之前,对少于100个单词的帖子用0填充。词嵌入模型给每个单词赋予一个向量表示,从而产生一个100×300的矩阵作为神经网络的输入。CNN为每个用户的每个帖子单独执行分类。由于一个用户总共可以有多达2000个帖子,因此有必要汇总这些结果,并为该特定用户做出单一决策。为此,与Trotzek等人[11]所做的类似,?计算出该用户抑郁概率的第98个百分位数 ?。然后,该值将用于该用户的最终决策。使用百分位数而不是平均概率是为了给概率更大的帖子更多的权重(关注度)。

实验使用单一词嵌入,以及前面提到的早期和晚期融合方法进行。实验在Colab环境中进行。预处理步骤使用NLTK10库和Keras预处理模块。模型构建过程使用Keras API和Tensorflow框架。出于结果兼容性的目的,训练和验证过程与[11]中描述的方法相同,即我们的主要基线(见第5.3节)。对于CNN超参数,除了epoch的个数不同,我们也遵循了与主基线相同的策略。简而言之,训练步骤使用Adam[56]来最小化交叉熵损失,使用的学习率为𝑒 −4。训练模型的批大小为10000个帖子,共训练10个epoch,未进行超参数优化。

5.3 Evaluation

有效性评估基于经典的机器学习指标,如Precision, Recall和𝐹1。此外,在早期检测系统中,除了对样品进行标记外,还必须考虑决策的延迟。因此,我们还使用了早期风险检测误差(Early Risk Detection Error,ERDR_{o} )[39]的评价指标,它基本上是对决策滞后的惩罚。通过作出决策所需要的帖子数量(𝑘)来衡量决策延迟。将早期风险检测系统在帖子数为 𝑘 时所作的二元决策定义为 𝑑 ,则 ERDR_{o} 的定义如下:

这个 ERDR_{o}  函数依赖于𝑜, 它控制了延迟决策的损失在什么时候开始增加得更快。ERDR_{o}  由三个基本术语来定义:c_{fp}c_{fn} 和 lc_{o}(k)\cdot c_{tp} 。这个 c_{fp} 是假阳性的代价(预测用户患有抑郁症,而事实上没有)。c_{fn} 表示假阴性的代价(当系统错误地将用户识别为非抑郁时)。最后 lc_{o}(k)\cdot c_{tp}表示用户实际患有抑郁症时判定他/她患有抑郁症的代价。在这种情况下,lc_{o}(k) 因子编码了与检测真阳性延迟相关的代价,作为惩罚延迟识别的一种方式。值得注意的是,延迟只适用于真阳性,因为真阴性是无风险的案例,在实际情况下,不需要早期干预。换句话说,函数 lc_{o}(k) 编码了与检测真阳性的延迟相关的代价,由公式(1)计算。

与之前的研究[11,49,50]类似,考虑 c_{fn}c_{tp} = 1。 反过来,c_{fp} 是根据测试集中阳性病例的比例来设置的 ,即0.1296。如[49]所示,由于延迟检测可能导致严重后果(即延迟检测相当于未检测到病例),因此将 c_{fn} 和 c_{tp} 设置为1。

假设数据集中有N个人,模型在分析所有用户的帖子后会得出N个决策。因此,一般误差是通过对每个用户的 ERDR_{o} 取平均值来计算的,越小越好。由于所有代价都在区间[0,1]内,所以ERDR_{o} 也在相同的范围内。在本研究中我们使用了ERDR_{5} 和 ERDR_{50} ​​​​​。

为了与之前的方法进行比较,我们以eRisk 2017的最佳作品为基准,分别是UNSLA[48]、FHDO-BCSGA[13]和FHDO-BCSGB[13]。UNSLA模型对应于[48]中开发的方法,称为术语的时间变化(temporal variation of terms, TVT),并结合词袋(Bag of Words, BoW)。具体来说,TVT是一种早期风险检测方法,该方法使用用户不同时间段在帖子中的用词变化作为概念空间。反过来,FHDO-BCSGA由一组基于BoW的逻辑回归分类器组成,这些分类器具有不同的项和n-gram权重。最后,FHDO-BCSGB也使用逻辑回归,并依靠向量化(doc2vec)从用户帖子中学习向量表示。

我们还考虑了后来提出的其他方法,特别是TVT-NB[57]、TVT-RF[57]和Trotzek等[11]。除了只使用TVT而不考虑BoW表示外,UNSLA使用的TVT- NB和TVT- RF方法相同。NB和RF分别表示使用的算法,Naive Bayes(朴素贝叶斯)和Random forest(随机森林)。

在主基线[11]当中,作者提出了一种基于不同词嵌入的CNN,与我们工作中使用的CNN相同。他们还提出了基于用户层面语言元数据的逻辑回归(例如,帖子中“我”一词、所有格代词和人称代词的平均数量、帖子中“我的抑郁症”一词的使用频率、描述抑郁症“治疗”药物的词语的使用频率等)。还提出了两种方法的综合方案。有关此基线的更多详细信息,请参见结果部分。

6. Results and discussion

本节介绍了使用基于单一嵌入模型(无嵌入融合)的方法进行实验时获得的结果,以及所提出的融合方法获得的结果。

为了清楚起见,结果将分为四个部分进行讨论。首先,针对表情符号的预处理方法,对现有的嵌入模型进行了评价。第二部分将最佳性能配置与[11]中描述的性能配置进行比较。第三部分将我们所提出的融合方法与基线进行对比分析,包括[11]中提出的最先进的模型。最后,我们分析了检测置信度阈值对该早期检测任务的影响。

6.1 Importance of underlying emotions 潜在情绪的重要性

单嵌入模型得到的结果如表3所示。考虑表情符号所编码的潜在情绪的重要性,对这些模型进行了评估。在第一种策略中,所有的表情符号都被丢弃。在第二种方法中,表情符号通过映射为语义等价的词来保留其含义。

通过多项指标进行的评估显示,使用表情符号映射通常可以获得更好的结果。例如,考虑总体有效性𝐹1,四个模型中有三个通过映射获得了卓越的有效性。唯一的例外是FastText WN模型,它仍然获得了相同的𝐹1。此外,映射还实现了最佳的𝐹1 (0.66),查准率(0.74),召回率(0.79),ERDR_{5}(12.40) 和 ERDR_{50} ​​​​​(8.47)。表3还显示了通过映射进行改进的模型所实现的相对增益。例如,最佳召回率和准确率分别为46.3%和32.1%。虽然没有那么显著,ERDR_{5} 和 ERDR_{50} ​​​​​在使用了映射之后也有不小的提升。

这些发现证实了文献[37,42,52],表明抑郁症患者表达的情绪是该问题的重要提示性证据。结果还显示了更高的精度和召回率之间的权衡,这将在6.4节中进一步讨论。

表3:各种词嵌入模型的结果。对比表情符号移除模型和映射模型。

6.2 Impact of emoticon semantics 表情符号语义的影响

表4显示了之前的基于嵌入的方法(没有表情符号映射)[11]的结果,以及通过表情符号映射进行语义扩展的变化。在基线中,表情符号的嵌入是直接与文本一起进行的,而在我们的方法中,表情符号被预先映射到它们的代表词并保持位置不变。然后,将生成的映射文本提交到嵌入程序中。总的来说,表情符号的语义映射改善了结果,在某些指标上有显著的提高。此外,除了ERDR_{50} ​​​​​,表情符号映射在所有度量指标上都获得了总体最佳结果(以粗体突出显示)。

语义扩展的一般最佳结果(𝐹1 = 0.66)和更好的早期检测(ERDR_{5} = 12.40)为任务带来了决定性的改进,因为它使得更早的干预成为可能。尽管数据集高度不平衡,只有少数的阳性抑郁病例,这些结果仍然是有价值的,因为它表明该系统更好地学会了分类。总之,它强调了利用表情符号语义识别潜在抑郁用户的影响。

表4:我们的表情映射策略取得的结果

6.3. Fusion effectiveness analysis 融合效果分析

表5列出了所提出的融合方法的结果以及基线的结果。第二部分和第三部分显示了之后获得的结果,其中包括主要基线(FastText-Wiki+Meta-LR)(最佳𝐹1和𝐸𝑅𝐷𝐸5)。第四部分给出了结合表情符号映射的各个嵌入模型的结果。在最后,第五部分展示了我们所提出的早期和晚期融合方法的结果。对于后期融合,只记录了5个表现最好的配置(best 𝐹1)。融合方法中使用的基本模型是part Ⅲ中介绍的带有表情符号映射的模型。

具体来说,我们使用与[11]中相同的CNN来训练基于词嵌入的模型。此外,“Meta LR”指的是基于逻辑回归的模型,该模型使用选定的语言查询和字数(LIWC)特征以及元数据特征进行训练,例如,帖子中“我”一词的平均使用次数、所有代词的平均使用次数、人称代词的平均使用次数、帖子中“我的抑郁”一词的使用频率、描述“治疗”抑郁症的药物的使用频率等。

根据不同的有效性指标,早期融合方法的表现优于大多数基线,尤其是EF1和EF2。此外,就𝐹1而言 (eRisk 2017中使用的主要度量之一),EF1优于所有仅依赖于单个嵌入的方法,包括所提出的带有表情符号映射的扩展。这些结果表明,使用早期融合方法是一个很有前途的解决方案。作为扩展,可以在此过程中加入额外的表示模型,以丰富跨模型的特征集成。

继续考虑早期融合方法,就𝐹1而言,当使用GVWN进行融合时,与所提出的带有表情符号映射的扩展相比没有任何改进。由于GVWN是具有最少词向量数(40万)的嵌入模型,这可能会影响结果,因为一些单词在嵌入中可能没有对应的向量表示。然而,考虑召回率指标,与单个模型相比,EF6有显著改善,即FTWN(增益30.4%)和GVWN(增益15.9%)。

晚期融合方法在多个指标上与基线相似或优于基线。就𝐹1而言,所有评估的晚期融合模型的结果都≥0.68(晚期融合1至5),该最小值优于它的大多数组件模型。具体来说,考虑召回率,所提出的方法获得了比几个基线更高的值,仅低于基线(FastText Wiki+Meta-LR)。然而,这种基线的优越性付出了非常高的代价,因为它最终产生了大量的假阳性。另一方面,我们的方法在这些措施之间取得了更好的平衡。第6.4节对这种权衡进行了更详细的讨论。

此外,它在 ERDR_{o} 指标上也保持了竞争力,该值用于评估晚期融合结果。严格来说,ERDR_{o} 是使用系统的k值进行计算的,需要评估最终决策所需帖子的最大数量。

表5:我们的方法和基线方法的总体结果。
前三个部分是基线。另外两个是我们的结果。最好的结果以粗体突出显示。

6.4 Detection threshold and effectiveness trade-off 检测阈值与有效性权衡

考虑到最大限度地检测抑郁用户的重要性,召回率被看作是一项重要的有效性措施。在这种情况下,[11]中报道的最佳模型获得了高值(高达0.85),但它的准确率较低(0.41),这表明存在大量假阳性。图4通过召回率与精度的散点图描述了这种权衡。在表5给出的所有模型中,为了获得更高的精度或召回率,大多数模型都要以牺牲另一个为代价。基于元特征的模型或依赖于我们所提出的融合方法的模型实现了最佳的权衡。此外,即使不使用元特征,只使用来自用户帖子的文本信息,融合方法也能达到相近的𝐹1。

检测置信阈值对结果有直接影响。较低的阈值会将低置信度的样本也检测为阳性,从而导致较高的召回率。然而,它通常会出现假阳性,因此精度较低。图3说明了表5中GVWN模型的这种权衡。与FastText-Wiki+Meta-LR类似,该模型能够在适当调整阈值的情况下实现高召回率(0.88)。然而,这一结果是以相当低的精度为代价的。这可能会使该系统在现实世界中的使用变得不切实际,因为许多用户可能会受到不必要的干预。在 ERDR_{o} 指标上也观察到类似的影响。该分析强调了同时考虑多种度量指标的重要性,例如𝐹1、精度和召回率,以评估这些检测方法的有效性。

图3:检测阈值与有效性权衡

图4:表5中所有模型的精度和召回率之间的散点图。

7. Challenges discussion and research directions

这项研究的结果揭示了社交媒体在抑郁症检测方面的重要性。事实证明,用户使用的语言是完成这项任务的宝贵资源。然而,尽管研究取得了进展,仍然存在许多挑战和悬而未决的问题。事实上,许多问题仍然需要更深入的调查,如数据收集和使用,伦理问题,面对问题的新技术研究,以及在检测后可以采取的干预措施等。

7.1 Prediction methods and feature representation 预测方法和特征表示

多年来,许多方法被应用于分析来自社交媒体的数据,从基于情感分析的技术[58]到语言建模的使用[59]。为了寻找更有效的模型,研究人员探索了有前景的技术,在某些情况下,还探索了它们的组合。然而,其他技术尚未得到广泛研究,可能在不久的将来吸引研究焦点。

与我们的工作类似,一些研究依靠静态词嵌入模型来进行特征表示,但只是单独考虑这些模型。不同的是,我们使用早期和晚期融合方法。然而,考虑到所使用的模型是静态的,即每个单词总是具有相同的向量表示,因此使用上下文语言的表示模型,如BERT[60]和XLNet[61],是值得深入研究的。另一个值得探索的方向是从那些在不同任务中取得高性能的模型中进行迁移学习。因此,它既可以使用来自备选数据库的预训练嵌入,也可以使用与问题相关的数据进行微调。在融合方法方面,可以深入研究其他混合融合技术,例如自动编码器和Tf–idf。

另一种研究方向是将已经从社交媒体中检索到的数据与另一个来源的数据相结合,例如与睡眠模式、身体活动、神经递质以及食物和习惯相关的数据。这样有望提高模型的有效性和可靠性,因为抑郁症患者通常会出现与这些和其他特征相关的症状[62]。然而,要做到这一点,重要的是要克服所涉及的伦理问题,特别是人类研究和社交媒体上的数据隐私的伦理问题,这些问题通常尚未被伦理委员会和公众完全理解[63]。

在这种情况下,一种未被广泛研究的替代方法是强化学习(RL)技术。从这个意义上说,必须开发新的方法,在预测模型生成的一个阶段引入强化学习。例如,[64]中的作者应用这一策略来选择与抑郁症检测任务相关的帖子。此外,它还可能有助于表示特征的选择,这些特征会被用于预测模型的训练过程。

在本研究中,使用来自社交媒体的文本消息对所提出的方法进行了评估。然而,我们所提出的方法可用于不同类型的文本序列,例如,电子邮件或即时消息。然而,考虑到此类媒体的固有特征,如文本大小、写作风格和词汇,应根据具体情况对其进行适当的评估和优化。

7.2 Interventions and public policy 干预措施和公共政策

与医疗保健信息学相关的新技术,例如抑郁症检测,通常会引起人们对这类系统实际用途的讨论,例如,它在干预过程中的使用。关于这类系统的实际使用,在对厌食症患者进行干预的背景下,De Choudhury[65]认为,这一领域的设计需要确保干预所获得的益处超过风险。在同一项研究中,作者指出,可以通过直接向个人或可靠的社会或临床接触者传达风险来进行干预。这种方法的使用可以在抑郁检测系统的背景下进行研究。

在饮食失调方面,Tumblr等一些平台已经为易感人群提供了基本干预措施[65]。因此,这类举措可以扩展到其他社交媒体和健康问题。此外,重要的是要包括其他疾病,尤其是抑郁症。然而,重要的是要以非侵入性的方式进行干预,这样用户的问题才不会恶化,或导致其他问题。为此,要依靠一个多学科团队来探讨如何有效地将这类战略付诸实践。

干预可以通过几种方式进行,可以弹出一个消息将用户引导到心理咨询机构,或者给该用户发送匿名消息,甚至可以通过联系与该用户关系密切的人来帮助改善其健康状况。此外,该平台本身可以发送激励信息,甚至广告,鼓励此人向专家寻求帮助。请注意,这种类型的方法必须以用户不会感到受到侵犯的方式执行。为了发展这些研究和行动,有必要制定有效的公共政策。如果取得了有效的成果,整个社会都将受益。

7.3 Ethics and legal issues 道德和法律问题

在研究过程中,除了涉及的许多偏见之外,有必要了解与该主题相关的道德问题和法律挑战。在与抑郁症相关的研究领域,研究人员需要理解,用户内容包含敏感信息,这些人通常不愿意谈论它。因此,研究人员需要意识到人工智能在医疗保健领域所面临的伦理和监管挑战,以避免对用户健康状况产生负面影响。

除了与数据获取过程有关的问题之外,重要的是该系统必须致力于正义。从这个意义上说,研究人员必须注意这些智能系统可能引入的偏见,比如种族和性别问题。科学协会和监管机构应该制定最佳实践,来识别和最小化偏见训练数据集的影响[66]。最后,最重要的挑战之一与某些算法的可解释性有关,通常被称为黑箱问题。自动决策的解释困难最终会降低系统的可靠性。从这个意义上说,重要的是,这些系统的开发要遵循指导方针,或产生有助于理解系统为什么做出某个决策的信息[67]。因此,一些问题仍然值得讨论,例如:用户是否应该知道使用自动化系统来促进他们的诊断?否则,如果做出了错误的预测,谁来负责?

尽管已经就这些主题进行了一些伦理讨论,但仍需要对医疗保健决策的自动化及其影响有更深入的了解。这需要多学科的讨论,包括多位科学专业人士和社会代表。这些讨论可能产生的指导方针必须得到适当监督,以确保它们被遵守。

8. Conclusion

精神疾病是世界范围内最普遍的公共卫生问题之一。其中,抑郁症因自杀等众多问题而脱颖而出。因此,我们提出了一种使用CNN并结合早期和晚期融合策略的抑郁症早期检测方法。利用该方法对一组预训练的嵌入模型及其融合进行了评估,并将其作为一种表示文本特征的方法。我们的研究结果表明,预训练的嵌入模型能够很好地表示用户使用的语言。与文献比较,所提模型取得了较好的效果。

与单独嵌入的结果相似,该方法也获得了令人满意的结果。在进行的所有实验中,与CNN训练的单个嵌入相比,以及与基线相比,该方法都得到了近似或更优的数据。这些结果在所有有效性标准之间保持了折中。此外,即使在数据库高度不平衡的情况下,模型也取得了优异的效果。除此之外,表情符号映射得到了最好的结果,这证实了情绪是表征抑郁症患者的重要方式。

关于未来的工作,我们可以专注于:(𝑖) 评估BERT和XLNet等替代语言建模方法的使用情况;(𝑖𝑖) 评估预训练嵌入与从头开始训练的影响;(𝑖𝑖𝑖) 在一个新颖的、可能更大的数据库中评估所提出的方法。此外,我们打算将中间融合方法用于抑郁症的早期检测任务,并使用其他混合融合技术。我们还打算在第三维(如RGB图像的R, G和B通道)上使用不同的嵌入,并使用这些样本训练网络; (𝑖𝑣) 在模型的生成中加入其他相关信息,如性别和年龄,并评估这对其性能的影响; (𝑣)使用大型数据集和更稳健的验证策略进行超参数调整的进一步实验。

  • 23
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值