出处:Artificial Intelligence In Medicine 123 (2022) 102202 (SCI二区)
标题:
Revealing traces of depression through personal statements analysis in social media
通过分析社交媒体上的个人陈述来揭示抑郁迹象
Abstract:
抑郁症是一种常见且非常重要的健康问题,严重影响着人们的日常生活。最近,几位研究人员探索分析了用户在社交媒体上生成的数据,以检测和诊断个体的抑郁迹象。在这方面,我们考虑了社交媒体中的抑郁检测任务,认为短语中包含个人陈述的词语(即以使用第一人称单数代词为特征的短语)对于揭示抑郁迹象具有特殊价值。首先,我们评估了社交媒体上个人陈述对抑郁症检测的价值。其次,我们采用了一种自动方法,通过特征选择方法和词加权方案来强调个人陈述。最后,我们将手头的任务作为早期检测问题来解决,其目的是尽可能多地检测抑郁迹象。为了评估这些想法,我们使用了抑郁症检测的基准Reddit数据。所得结果表明,个人陈述与揭示抑郁迹象有很高的相关性。此外,早期情景的结果表明,与最先进的方法相比,所提出的方法具有较高的竞争力,同时保持了其简单性和可解释性。
1. Introduction
抑郁症是严重影响人们日常生活的最常见的心理健康疾病之一。它可以引起各种各样的的身心问题,对患者的个人环境、工作、学业乃至最基本的睡眠和饮食都产生负面影响。严重者可导致自残和自杀。尽管抑郁症是一种可以治疗的疾病,然而由于各种各样的原因,例如患者自己意识不到这个问题,或者由于与精神疾病相关的社会耻辱,抑郁症通常难以被发现。最近,社交媒体使用的增加为抑郁症检测提供了新的机会[6-8]。在这些平台上,人们可以自由地分享和表达自己的想法和感受。此外,抑郁症患者经常使用这些媒体来收集有关他们疾病的信息或讨论他们的问题和症状。
基于语言是个性、社会地位或情感状态以及心理健康的有力指标[9]这一观点,一些研究工作利用社交媒体用户产生的内容作为丰富的知识来源来研究、推断和跟踪患有抑郁症等精神疾病的用户。尤其是患有抑郁症的个体已经被证明在他们的语言和行为上表现出变化(例如,更多的负面情绪和更高的自我意识)[10]。在这方面,社交媒体上自动抑郁检测方法的发展引起了计算语言学研究界的特别兴趣。这一具有挑战性的任务通常被作为文本分类问题来解决,考虑各种文本表示和分类模型,并得出结论——抑郁症患者和心理健康的人在语言的主题和风格方面存在差异[11]。然而,很少有人研究用户自我陈述的信息与抑郁表达之间的关系。
从心理学角度来看,自然口语中第一人称单数代词的相对频率有助于预测抑郁症状。例如,一些研究表明,抑郁症患者的自我陈述比非抑郁症患者更频繁[12-14]。一些理论还认为,高度自我关注可以揭示抑郁症的迹象[15,16]。此外,在文献中,一些计算方法观察到抑郁症患者产生的文本中第一人称代词的频率很高[17-20]。然而,据我们所知,还没有其他作者研究过代词语境在抑郁症检测中的价值。在这方面,我们感兴趣的是调查个人陈述,即以第一人称单数代词出现的短语中的信息(我们也称其为个人信息)是否集中了揭示用户的心理状态。
基于这些心理学研究结果,以及之前的一些研究表明,个人信息有助于确定用户的性别和年龄等特征[21,22],我们假设,当用户分享个人信息时,他们倾向于使用可能暗示心理健康疾病(如抑郁症)的词语。特别是,我们认为,与健康人不同的是,在个人发言中,具有相同障碍的人有着相似的主题兴趣。例如,下面这段话是一个被诊断为抑郁症的用户写的个人陈述:“我被开了治疗抑郁症的药。我无法平息我的焦虑。”这段文字集中了与抑郁症领域高度相关的词语。另一方面,我们认为通过特征选择和词加权技术来强调这些词的价值,可以有效帮助区分抑郁症和非抑郁症患者。此外,考虑这些想法,我们还面临着早期抑郁检测问题,其目标是尽快识别出有抑郁症状的用户。早期检测能够增加患者尽快得到适当治疗的机会。在这方面,我们认为,与基于词频的技术不同,我们提出的方法使我们能够特别关注作者个人背景下的频繁词语,有利于抑郁症的早期发现。
综上所述,本文的贡献如下。首先,我们评估了个人陈述对抑郁检测的相关性。其次,采用某种特征选择方法和词加权方案,自动提取和强调这类信息,用于抑郁症检测任务。值得注意的是,与之前处理这项任务的大多数方法不同,所提出的方法可以发现抑郁症用户所写文本中最显著的词,并能从分类的角度对结果进行解释。考虑到开发此类方法的目的之一是为专家提供支持其诊断的工具,这种可解释性至关重要。第三,确定处理早期抑郁症检测的设置。基于从社交媒体用户的个人陈述中自动提取的单词,我们提出了一种启发式的方法来尽早识别抑郁症患者。
本文的其余部分组织如下。第2节回顾了社交媒体抑郁检测和早期风险检测的相关工作。第3节描述了一项关于个人陈述与抑郁症检测相关性的研究。第4节提出了我们检测抑郁症的方法。第5节报告了实验和结果。最后,第六部分指出了我们的结论和未来的工作。
2. Related work
从社交媒体收集的数据已被用于分析与公共卫生有关的主题。通过考虑Twitter数据,分析了几种健康状况(如过敏、偏头痛、肥胖等)[23]。计算语言学方法也被应用于研究精神疾病,如注意缺陷多动症、广泛性焦虑症[24]、精神分裂症[25]、创伤后应激障碍[11]、产后抑郁症[26]、自杀风险[27]以及抑郁症。
心理学、医学、语言学等不同领域都开展了与抑郁症相关的研究。他们都试图找出病因、症状,当然,还有如何正确诊断抑郁症患者。在这种情况下,用户在社交媒体上生成的内容已经成为抑郁症相关主题研究的一个有趣课题[28,29]。
社交媒体数据中蕴含了人们的精神和情绪状况,这一点已经被证实。因此,来自Twitter[18,31 - 34]、Facebook[35,36]、Reddit[6,37]和LiveJournal[38]等不同社交媒体平台的用户数据已经被用于调查抑郁症。
根据[39],Twitter帖子可以作为分析抑郁内容的可靠来源。他们发现,用户倾向于在广义上分享他们的抑郁症信息,包括抑郁感觉、治疗等。在[33]中,作者从几个方面比较了抑郁和非抑郁的Twitter用户。抑郁的用户表现出较低的社交积极性,倾向于使用更多的负面表达,并反映出更多的医疗问题和宗教思想。Nadeem等人[30]检索了被诊断为抑郁症的用户一年内在Twitter上发布的所有消息。他们将词袋与标准分类器结合起来进行实验。[40]使用了一组从加拿大心理健康运动中检索到的Twitter数据。作者对n-grams、基于词典的特征以及人称代词的频率进行了实验。
基于深度学习的方法也被应用于抑郁症检测。在[18]中,作者对卷积神经网络和递归神经网络进行了实验,在Twitter用户抑郁症的检测上获得了有竞争力的结果。反映抑郁症线索的文本可能是非常主观的。因此,一些作者决定利用情感内容来识别抑郁的用户。在[34]中,作者利用情感分析来确定Twitter帖子的极性。他们发现,患有抑郁症的用户发布的情感推文更长。在Twitter[31]和Reddit帖子[6]上,人们也利用抑郁帖子中的情绪来识别抑郁症。最近,[41]提出了一种单分类方法来对Reddit上的用户进行抑郁检测。其他一些研究考虑使用联系人的网络结构来分析抑郁症[42,43]。在[33]中,作者开发了一个Twitter数据集,由被临床诊断为抑郁症的用户分享的帖子组成。他们用一个概率模型进行了实验,该模型考虑了很多特征,如情感表达、语言风格和社会网络属性。
2.1 Shared tasks on depression detection 抑郁症检测的共享任务
人们希望从自然语言处理的角度来研究心理健康问题,由此产生了共同任务的组织,致力于促进这些主题的研究。在2015年计算语言学和临床心理学(CLPsych) 2的框架下,组织了CLPsych-2015共享任务[32]。其目的是从推特数据中识别出患有抑郁症的用户。参与系统通过应用主题模型、词袋、基于规则的方法、字符语言模型等来解决这一任务。
对抑郁症的检测涉及到一个额外的挑战,即需要尽快识别任何与抑郁症相关的线索,从而避免产生进一步的后果。因此,有必要将这项具有挑战性的任务视为早期风险检测(以下简称ERD)问题。对ERD相关问题的研究试图开发一类系统,将时间作为解决此类任务的基本要素[37]。第一个数据集由Losada等人开发,包括一组按时间顺序排列的关于抑郁症和非抑郁症用户的社交媒体帖子[37]。这些数据不仅可以用于研究抑郁用户和非抑郁用户在语言使用上的差异,也可以用于研究抑郁用户的语言演变。
2017年,组织了首个关于抑郁症早期风险检测的共享任务(eRisk)[7]。这项任务的目的是通过考虑按时间顺序给定的文字序列来识别抑郁症的早期痕迹。在这个意义上,提出了早期风险检测误差(ERDE),同时考虑分类器的准确性和做出预测的延迟。参与共享任务的系统通过利用词袋、n-gram、基于词典的特征、潜在和简明语义分析以及标准分类器和神经网络等来解决这一挑战。2018年组织了第二版的eRisk任务[8]。研究人员提出了利用不同的机器学习算法、