论文阅读:Revealing traces of depression through personal statements analysis in social media

出处:Artificial Intelligence In Medicine 123 (2022) 102202 (SCI二区)

标题:

Revealing traces of depression through personal statements analysis in social media

通过分析社交媒体上的个人陈述来揭示抑郁迹象

Abstract:

抑郁症是一种常见且非常重要的健康问题,严重影响着人们的日常生活。最近,几位研究人员探索分析了用户在社交媒体上生成的数据,以检测和诊断个体的抑郁迹象。在这方面,我们考虑了社交媒体中的抑郁检测任务,认为短语中包含个人陈述的词语(即以使用第一人称单数代词为特征的短语)对于揭示抑郁迹象具有特殊价值。首先,我们评估了社交媒体上个人陈述对抑郁症检测的价值。其次,我们采用了一种自动方法,通过特征选择方法和词加权方案来强调个人陈述。最后,我们将手头的任务作为早期检测问题来解决,其目的是尽可能多地检测抑郁迹象。为了评估这些想法,我们使用了抑郁症检测的基准Reddit数据。所得结果表明,个人陈述与揭示抑郁迹象有很高的相关性。此外,早期情景的结果表明,与最先进的方法相比,所提出的方法具有较高的竞争力,同时保持了其简单性和可解释性。

1. Introduction

抑郁症是严重影响人们日常生活的最常见的心理健康疾病之一。它可以引起各种各样的的身心问题,对患者的个人环境、工作、学业乃至最基本的睡眠和饮食都产生负面影响。严重者可导致自残和自杀。尽管抑郁症是一种可以治疗的疾病,然而由于各种各样的原因,例如患者自己意识不到这个问题,或者由于与精神疾病相关的社会耻辱,抑郁症通常难以被发现。最近,社交媒体使用的增加为抑郁症检测提供了新的机会[6-8]。在这些平台上,人们可以自由地分享和表达自己的想法和感受。此外,抑郁症患者经常使用这些媒体来收集有关他们疾病的信息或讨论他们的问题和症状。

基于语言是个性、社会地位或情感状态以及心理健康的有力指标[9]这一观点,一些研究工作利用社交媒体用户产生的内容作为丰富的知识来源来研究、推断和跟踪患有抑郁症等精神疾病的用户。尤其是患有抑郁症的个体已经被证明在他们的语言和行为上表现出变化(例如,更多的负面情绪和更高的自我意识)[10]。在这方面,社交媒体上自动抑郁检测方法的发展引起了计算语言学研究界的特别兴趣。这一具有挑战性的任务通常被作为文本分类问题来解决,考虑各种文本表示和分类模型,并得出结论——抑郁症患者和心理健康的人在语言的主题和风格方面存在差异[11]。然而,很少有人研究用户自我陈述的信息与抑郁表达之间的关系。

从心理学角度来看,自然口语中第一人称单数代词的相对频率有助于预测抑郁症状。例如,一些研究表明,抑郁症患者的自我陈述比非抑郁症患者更频繁[12-14]。一些理论还认为,高度自我关注可以揭示抑郁症的迹象[15,16]。此外,在文献中,一些计算方法观察到抑郁症患者产生的文本中第一人称代词的频率很高[17-20]。然而,据我们所知,还没有其他作者研究过代词语境在抑郁症检测中的价值。在这方面,我们感兴趣的是调查个人陈述,即以第一人称单数代词出现的短语中的信息(我们也称其为个人信息)是否集中了揭示用户的心理状态。

基于这些心理学研究结果,以及之前的一些研究表明,个人信息有助于确定用户的性别和年龄等特征[21,22],我们假设,当用户分享个人信息时,他们倾向于使用可能暗示心理健康疾病(如抑郁症)的词语。特别是,我们认为,与健康人不同的是,在个人发言中,具有相同障碍的人有着相似的主题兴趣。例如,下面这段话是一个被诊断为抑郁症的用户写的个人陈述:“我被开了治疗抑郁症的药。我无法平息我的焦虑。”这段文字集中了与抑郁症领域高度相关的词语。另一方面,我们认为通过特征选择和词加权技术来强调这些词的价值,可以有效帮助区分抑郁症和非抑郁症患者。此外,考虑这些想法,我们还面临着早期抑郁检测问题,其目标是尽快识别出有抑郁症状的用户。早期检测能够增加患者尽快得到适当治疗的机会。在这方面,我们认为,与基于词频的技术不同,我们提出的方法使我们能够特别关注作者个人背景下的频繁词语,有利于抑郁症的早期发现。

综上所述,本文的贡献如下。首先,我们评估了个人陈述对抑郁检测的相关性。其次,采用某种特征选择方法和词加权方案,自动提取和强调这类信息,用于抑郁症检测任务。值得注意的是,与之前处理这项任务的大多数方法不同,所提出的方法可以发现抑郁症用户所写文本中最显著的词,并能从分类的角度对结果进行解释。考虑到开发此类方法的目的之一是为专家提供支持其诊断的工具,这种可解释性至关重要。第三,确定处理早期抑郁症检测的设置。基于从社交媒体用户的个人陈述中自动提取的单词,我们提出了一种启发式的方法来尽早识别抑郁症患者。

本文的其余部分组织如下。第2节回顾了社交媒体抑郁检测和早期风险检测的相关工作。第3节描述了一项关于个人陈述与抑郁症检测相关性的研究。第4节提出了我们检测抑郁症的方法。第5节报告了实验和结果。最后,第六部分指出了我们的结论和未来的工作。

2. Related work

从社交媒体收集的数据已被用于分析与公共卫生有关的主题。通过考虑Twitter数据,分析了几种健康状况(如过敏、偏头痛、肥胖等)[23]。计算语言学方法也被应用于研究精神疾病,如注意缺陷多动症、广泛性焦虑症[24]、精神分裂症[25]、创伤后应激障碍[11]、产后抑郁症[26]、自杀风险[27]以及抑郁症。

心理学、医学、语言学等不同领域都开展了与抑郁症相关的研究。他们都试图找出病因、症状,当然,还有如何正确诊断抑郁症患者。在这种情况下,用户在社交媒体上生成的内容已经成为抑郁症相关主题研究的一个有趣课题[28,29]。

社交媒体数据中蕴含了人们的精神和情绪状况,这一点已经被证实。因此,来自Twitter[18,31 - 34]、Facebook[35,36]、Reddit[6,37]和LiveJournal[38]等不同社交媒体平台的用户数据已经被用于调查抑郁症。

根据[39],Twitter帖子可以作为分析抑郁内容的可靠来源。他们发现,用户倾向于在广义上分享他们的抑郁症信息,包括抑郁感觉、治疗等。在[33]中,作者从几个方面比较了抑郁和非抑郁的Twitter用户。抑郁的用户表现出较低的社交积极性,倾向于使用更多的负面表达,并反映出更多的医疗问题和宗教思想。Nadeem等人[30]检索了被诊断为抑郁症的用户一年内在Twitter上发布的所有消息。他们将词袋与标准分类器结合起来进行实验。[40]使用了一组从加拿大心理健康运动中检索到的Twitter数据。作者对n-grams、基于词典的特征以及人称代词的频率进行了实验。

基于深度学习的方法也被应用于抑郁症检测。在[18]中,作者对卷积神经网络和递归神经网络进行了实验,在Twitter用户抑郁症的检测上获得了有竞争力的结果。反映抑郁症线索的文本可能是非常主观的。因此,一些作者决定利用情感内容来识别抑郁的用户。在[34]中,作者利用情感分析来确定Twitter帖子的极性。他们发现,患有抑郁症的用户发布的情感推文更长。在Twitter[31]和Reddit帖子[6]上,人们也利用抑郁帖子中的情绪来识别抑郁症。最近,[41]提出了一种单分类方法来对Reddit上的用户进行抑郁检测。其他一些研究考虑使用联系人的网络结构来分析抑郁症[42,43]。在[33]中,作者开发了一个Twitter数据集,由被临床诊断为抑郁症的用户分享的帖子组成。他们用一个概率模型进行了实验,该模型考虑了很多特征,如情感表达、语言风格和社会网络属性。

2.1 Shared tasks on depression detection 抑郁症检测的共享任务

人们希望从自然语言处理的角度来研究心理健康问题,由此产生了共同任务的组织,致力于促进这些主题的研究。在2015年计算语言学和临床心理学(CLPsych) 2的框架下,组织了CLPsych-2015共享任务[32]。其目的是从推特数据中识别出患有抑郁症的用户。参与系统通过应用主题模型、词袋、基于规则的方法、字符语言模型等来解决这一任务。

对抑郁症的检测涉及到一个额外的挑战,即需要尽快识别任何与抑郁症相关的线索,从而避免产生进一步的后果。因此,有必要将这项具有挑战性的任务视为早期风险检测(以下简称ERD)问题。对ERD相关问题的研究试图开发一类系统,将时间作为解决此类任务的基本要素[37]。第一个数据集由Losada等人开发,包括一组按时间顺序排列的关于抑郁症和非抑郁症用户的社交媒体帖子[37]。这些数据不仅可以用于研究抑郁用户和非抑郁用户在语言使用上的差异,也可以用于研究抑郁用户的语言演变。

2017年,组织了首个关于抑郁症早期风险检测的共享任务(eRisk)[7]。这项任务的目的是通过考虑按时间顺序给定的文字序列来识别抑郁症的早期痕迹。在这个意义上,提出了早期风险检测误差(ERDE),同时考虑分类器的准确性和做出预测的延迟。参与共享任务的系统通过利用词袋、n-gram、基于词典的特征、潜在和简明语义分析以及标准分类器和神经网络等来解决这一挑战。2018年组织了第二版的eRisk任务[8]。研究人员提出了利用不同的机器学习算法、卷积神经网络、词袋表示、词嵌入和特定领域词汇表来进行抑郁检测的方法。在最近的两个版本[44,45]中,组织了一个新的任务,旨在计算给定用户的抑郁严重程度。

3. Relevance of the personal statements for depression detection 个人陈述与抑郁检测之间的相关性

从心理学和计算语言学的角度来看,我们使用的词语揭示了我们是谁,我们的思想、感情、意识形态、行为,甚至我们的个性[12,46]。在这方面,人称代词被描述为个人特征的判别性标记[47]。基于这些发现,之前的研究表明,带有第一人称代词的短语中包含的词语对预测用户特征(如性别和年龄)特别有用[21,22]。根据这些观点,在本文中,我们假设抑郁症患者在个人陈述中暴露了与他们的症状、药物、恐惧等相关的词语。因此,个人陈述中的词语可能对发现抑郁症的迹象非常有帮助。为了说明这个假设,表1给出了一些个人陈述的例子。在这些短语中,用户指出了个人经历,分享了表明抑郁状态的线索,例如与治疗抑郁症的药物(例如欣百达)或感觉(如焦虑、恐惧、愤怒、绝望等)。

当然,被归类为非抑郁症的用户也会在他们分享的信息中使用个人陈述,但他们的内容大多数时候与抑郁症无关。此外,人们还可以使用个人陈述来分享其他经历,在这些经历中,抑郁行为并不明显。抛开这些困难不谈,我们的假设表明,抑郁症的线索高度集中于个人陈述当中。为了验证这一点,我们进行了以下第一个探索性实验来评估个人陈述的价值。

表1:eRisk共享任务数据集中被诊断为抑郁症的用户的个人陈述示例。
(为了保护用户的隐私,我们对原来的短语做了一些修改)

3.1 Assessing the value of personal statements for depression detection 评估个人陈述对抑郁检测的价值

传统上,检测社交媒体用户是否患有抑郁症的任务一直是一个二元文本分类问题;它的目标是将预定义的类(抑郁类和非抑郁类)分配给给定的一组用户,每个用户由包含他/她所有帖子的单个文档表示。 考虑这个框架,我们想评估一下个人陈述与抑郁检测任务的相关性,将仅使用个人陈述训练的分类器与考虑其余文档信息时的检测性能进行比较。为此,我们首先将每个文档中的短语按照不同的人称代词分为五个子集:我、你、他/她、我们和他们。然后,我们用这五个子集分别训练一些传统分类器。对抑郁和非抑郁用户进行分类

3.1.1 Settings

3.1.1.1 Datasets 数据集

出于实验目的,我们利用了2017和2018版本的eRisk共享任务中使用的语料库[7,8]。这两个合集都包含了reddit网站上的英语用户的文章。特别地,2018版的训练集对应于2017版的训练集和测试集的并集。表2描述了这些数据集的一些统计数据。在这两个集合中,有两类用户:抑郁和非抑郁。被认定为抑郁的用户是那些明确表示他们被诊断患有抑郁症的人。此外,表2显示了这些语料库的主要挑战之一,即非抑郁类的高度不平衡

表2:eRisk 2017和2018数据集中训练集和测试集的分布情况。
统计数据分别表示训练集和测试集中的文档(即用户)的数量。
3.1.1.2  Filtering process 过滤过程

我们将每个文档划分成短语,然后根据上述代词族将它们分成组。例如,一组个人陈述句是由包含I族代词的短语组成的:I, me, mine, my, myself, Im。同样的,我们创建了一组对应于You-, He/She-, We - 和 They - 族的短语。因此,对于每个用户,我们只保留那些包含所选人称代词族的短语,减少了每个用户用于训练分类器的数据量。因此,我们将这些短语集称为过滤子语料库。

3.1.1.3  Classification process 分类过程

我们只考虑每个用户经过给定的代词族过滤后的信息,执行一个二元分类任务(抑郁与非抑郁;两种类别通常也称为正类和负类)。在本实验中,使用具有传统TF词项加权(归一化频率)的词袋(BoW)。代表内容和风格特征的词汇一元模型(unigram)包括:实词,俚语,标点符号和字典外的词语,如表情符号。这些特征是从每个集合中前10,000个最频繁的词汇中提取的。在分类阶段,通过Python Sklearn的LinearSVC实现,使用具有L2归一化的支持向量机(SVM),并使用网格搜索策略(范围从0.125到16)来优化参数C的准确性。我们决定使用SVM分类器,因为在eRisk共享任务中,它在传统分类器中取得了最好的结果,并且取得了可以与基于深度学习技术的方法相提并论的结果。事实上,一些参与者认为,可用数据集的规模较小可能是SVM相对于深度学习技术具有竞争力的原因。

与目前大多数研究工作类似,我们使用抑郁类的F1作为主要评价指标,这表明了正类的重要性。

3.1.2 Results of the analysis 结果分析

在两个集合中应用所述方法获得的结果如图1所示。考虑到我们的目标是评估个人陈述对抑郁症检测的有用性,我们将获得的结果与使用各个过滤子语料库以及使用所有信息获得的结果(在图中表示为“所有”)进行比较。在每个子图中,条形列表示正类的F1值(左y轴),黑点表示相应过滤子语料库中短语的百分比(右y轴)。根据使用的代词族,结果的变化表明,人们所表达或分享的信息取决于与他人的互动(即取决于我们在谈论谁)。有趣的是,个人陈述子集(对应于i族的短语(粉色条))所获得的性能与使用文本中的所有信息(蓝色条)所获得的性能非常相似。值得注意的是,在所有情况下,使用过滤后的数据只对应原始语料库中不到20%的信息。虽然使用与第二人称代词(you)相关的子语料库获得的结果一般,但使用单数第一人称代词(I)的短语的价值非常显著。与此相反,负类的结果表明,非抑郁组的人使用人称代词的方式相似,没法根据代词使用的特殊性来区分这一群体。因此,这些结果支持了我们的假设,即个人陈述中包含了揭示抑郁症潜在线索的特殊信息。此外,这些结果也证实了个人陈述与特定文本作者的特征之间的相关性。

人们很自然地想知道,没有人称代词的短语对手头的任务是否重要。在这方面,文献[21]得出结论,这类短语也可以包含重要的信息,尽管其级别低于个人陈述。因此,接下来的想法是通过适当的方案来使用所有信息,包括个人信息和非个人信息,但强调个人信息(参见第4节)。

图1:使用不同过滤的子语料库正类的结果。条形列表示正类的F1值(主轴)。黑点表示个人陈述在子语料库中的百分比(次轴)。使用所有信息的结果与使用与I代词相关的过滤子语料库的结果相似,但后者的信息要少得多。

3.1.3 Why are the personal statements helpful for depression detection? 为什么个人陈述有助于发现抑郁症?

先前的实验表明,根据过滤过程中使用的代词族,个人陈述可以捕获不同的概念。因此,可以预期的是,与抑郁症检测最相关的信息会随使用的代词而变化。在本节中,我们将深入分析,从每个过滤的子语料库中显示更相关的词语。特别地,计算了每个子语料库上的信息增益。表3显示了eRisk 2018数据集中每个子语料库中抑郁症检测的信息增益最高的前40个单词。

每一行的词语类型有非常明显的不同。与I和you代词族相关的单词列表属于与抑郁领域密切相关的词汇,而与其余代词相关的单词大多表示数据集创建时的重要新闻主题的信息,例如在政治领域:奥巴马、政府、国家、俄罗斯等。这些结果表明,带有复数第一人称代词的短语与任务无关。另一方面,这一分析证实了带有单数第一人称代词的短语与抑郁检测相关。有趣的是,使用第二人称代词的短语也暴露了抑郁症患者和非抑郁症患者之间的差异。这意味着带有代词I和you的个人陈述确实与检测抑郁症有关

表3:eRisk 2018集合中每个过滤子词库的前40个具有判别性的单词。这些词语是通过抑郁症检测问题的信息增益来选择的。

3.2 Second-person narratives: a voice for expressing depression 第二人称叙述:一种表达抑郁的声音 

可以预期的是,自我陈述涉及抑郁症检测的线索。然而,在前一节中,带有第二人称代词的短语因其对手头任务的贡献而脱颖而出。我们对这一发现进行了深入研究,以了解这类句子在检测抑郁症方面的作用。表4显示了一些使用第二人称代词过滤的短语示例。我们观察到,这些短语对应于所谓的第二人称叙事[48],这是一种通过第二人称的叙述与读者建立联系的常用方式。第二人称叙述通常用于描述抑郁症[49]。叙述者经常使用它来帮助读者理解与抑郁有关的感受。这表明,属于you代词族的短语中的单词也可以集中在抑郁症检测方面的特殊价值。因此,应该特别注意带有“I”和“you”代词族的短语,以下简称个人陈述句。特别是,我们利用这类短语,通过改编DPP-EXPEI方法来强调其价值。

表4:eRisk共享任务数据集中使用第二人称叙述的个人陈述举例

4. Adapting DPP-EXPEI to the depression detection task 将改进的DPP-EXPEI应用于抑郁症检测任务

DPP-EXPEI方法旨在强调个人陈述中词语的价值。它是在之前的一项作者评测任务中被引入的,取得了显著的效果[22]。从技术上讲,它是基于使用标准BoW表示的监督分类框架。根据支持这种方法的思想,并考虑到其简单性和良好的性能,我们提出了一种变体,称为DPPfd-EXPEI,以面对社交媒体中的抑郁检测任务。

该方法基于一种名为“个人表达强度”(Personal Expression Intensity,以下简称PEI)的测量方法,其目的是量化每个词在多大程度上揭示了作者或社交媒体用户的个人信息。PEI假设一个词在文档的个人陈述中出现的频率越高,而在非个人陈述中出现的频率越低,那么这个词就越能揭示文档作者的个人资料。形式上,PEI是文档dj中词语ti的函数,用来估计两个度量(个人精度ρ和个人覆盖率τ)的组合(平衡),这两个度量用于分析词语在个人陈述中的出现,PEI的定义见等式(1):

其中ρ(ti,dj)估计了词语ti所揭示的个人信息的集中度,即个人陈述在包含词语ti的短语子集中所占百分比,τ(ti,dj)表示词语ti所涵盖的来自文件dj的个人陈述的部分,换句话说,词语ti在dj的个人陈述子集中出现的概率。因此,PEI的取值范围为[0,1]区间。

我们所提出的方法通过两个涉及文本表示构建的过程来利用PEI:特征选择方法和词加权方案。对原DPP-EXPEI的改编主要集中在第一个过程中。

4.1 Feature selection using DPPfd 使用DPPfd进行特征选择

特征选择的目标是检测与给定分类任务最相关的词语子集。我们认为,应该根据手头任务的特点,采用合适的特征选择方法。具体而言,抑郁症检测任务已被广泛视为一个二元分类问题,重点是将抑郁类作为感兴趣的类别。此外,该任务通常对非抑郁类表现出高度的不平衡。在这方面,我们设计了DPPfd度量(抑郁症个人纯度判别)作为一种特征选择技术,其特点是优先选择抑郁症用户在其个人陈述中常用的词语。形式上,DPPfd是词语ti的函数,见等式(2):

它包含两个组成部分:一是叫做个人纯度(PP)的描述性因素,它捕捉一个词语如何描述类别为ck的文档中的个人信息,二是叫做加权差分(wdif)的判别性因素,它用来估计一个词项在两类(抑郁和非抑郁)文档中是如何分布的。在下面的段落中,我们描述了这两个组成部分。

4.1.1 Personal purity 个人纯度

基于这么一个观点——带有个人信息的作品能更好地描述作者,该因子用来评估一个词语描述属于ck类别的作者(用户)的个人信息的能力,如下所示:

其中函数NEI(非个人表达强度)是与PEI类似的概念,但它将重点转移到文档dj中没有第一人称代词的短语集合中词项ti的出现上。

4.1.2 Weighted difference 加权差分

该因子是对原来使用基尼系数的DPP-EXPEI方法的修改。如前所述,我们建议强调属于抑郁类别的词项的价值。为了实现这一目标,我们设计了两个类别(抑郁和非抑郁)中词项分布的偏差。这种差异如式(4)所示:

其中Fd(ti)和Fn(ti)分别表示在抑郁类和非抑郁类中包含词项 ti 的文档数量的相对频率(取值范围从0到1)。在这个等式中,最重要的部分是1/m指数。它可以给属于抑郁类实例的词项赋予更高的重要性,从而克服类别不平衡的问题。(在实验中,我们对m的几个值进行了评估(m=2、3、4和5),发现m = 2适合于此目的)

从本质上讲,改进的DPPfd允许从抑郁用户中选出与个人信息密切相关的词语。因此,DPPfd选择的词汇可以被视为一种与抑郁症相关的词汇。

4.2 Term weighting using EXPEI 使用EXPEI进行词加权

当使用BoW方法时,必须使用词加权模式将权重wij与每个文档dj中的每个词语ti关联起来。EXPEI(个人信息的指数奖励)是一种词加权模式,它建议对那些在个人陈述中出现频率更高的词语的权重给予指数奖励。EXPEI是基于归一化频率的,但它通过其PEI值来奖励个人陈述中词语的出现,并通过指数1/m来补偿低频率。等式(5)给出了EXPEI项的权重。更多的信息可以在[22]中找到。

5. Results and discussion 结果与讨论

本节介绍DPPfd-EXPEI在抑郁检测任务上的结果。它被组织成三个主要的小节。第5.1节中的实验评估了将该方法用于强调包含I和you人称代词的短语时,该方法与该任务的相关性。第5.2节的第二个实验旨在评估DPPfd-EXPEI在早期检测场景中的适用性。最后,第5.3节对所获得的结果进行了误差分析。

在接下来的实验中,我们使用与3.1.1节相同的实验配置。然而,在本例中,我们通过DPPfd选择了最相关的词语,然后,使用这些词语,我们建立了一个考虑EXPEI词加权方案的标准BoW表示。

5.1 Experiment 1: Emphasizing personal information with DPPfd-EXPEI 实验1:使用DPPfd-EXPEI强调个人信息

如前所述,DPPfd-EXPEI可以根据词语捕获作者个人陈述的能力来选择词汇并对其加权。因此,本实验的目的是评估DPPfd-EXPEI方法在检测患有抑郁症的社交媒体用户方面的相关性。作为评估的一部分,我们比较了DPPfd-EXPEI和传统的信息增益项频率(IG-TF)方法获得的性能。已知具有负信息增益(IG)的属性对分类没有帮助。考虑到这一点,我们试图在每个表示中使用相同数量的属性来进行公平的评估。这一数字是根据IG为正的属性数量来估计的:eRisk 2017和2018集合的属性数量分别为1000和1500。所得结果如图2所示。我们注意到:i)我们提出的改进DPPfd-EXPEI获得了比原始DPP-EXPEI更好的结果,这表明DPPfd所遵循的策略成功捕获了与抑郁域强相关的词语; ii) DPPfd-EXPEI大大优于传统的IG-TF方法,证实了个人陈述对手头任务的相关性和有用性,并表明个人陈述中的词语即使在全局范围内并不常见,也很有价值。

图2:DPPfd-EXPEI方法在风险2017年和2018年数据集上的抑郁检测结果(抑郁类的F1值)。并与原始的DPP-EXPEI和传统的IG-TF方法进行了比较。我们使用测试集中用户的所有文章对这两个语料库进行了评估。

为了深入了解所提出方法的性能,我们比较了DPPfd和IG提取的相关属性。图3显示了这种比较的结果。在图中,红色和垂直方向表示被IG和DPPfd识别为相关属性的单词。另一方面,绿色和水平方向表示仅由DPPfd区分的单词。DPPfd方案通过上下文而不是频率来捕获单词的相关性。值得注意的是,仅与DPPfd相关的词汇与抑郁领域有着高度和直观的联系,例如:自杀、害怕、不安、紧张、哭泣、不舒服、睡着和精神上的。尽管DPPfd关注正类的判别项,但与负类相关的一些项可能排名靠前。例如,接下来的单词可能与负类密切相关:幸福和生日。这表明DPPfd丰富了词语的选择,因为它捕获的词语可能在全局范围内并不常见,但与个人的上下文相关。因此,这表明抑郁用户在个人陈述中表现出明显的抑郁迹象,而这是基于全局频率的方案(如IG)所无法检测到的。

图3:DPPfd在eRisk 2018语料库中选择的前50个词语。垂直方向和红色表示IG和DPPfd同时选择的单词。水平方向和绿色表示IG忽略但与DPPfd选择的单词。

5.2 Experiment 2: Early depression detection using DPPfd-EXPEI 实验2:使用DPPfd-EXPEI进行抑郁症的早期检测

早期检测的目的是尽快识别抑郁症用户,即在考虑尽可能少的信息的情况下,对他们的心理健康状况发出警报。本节使用2017年和2018年eRisk共享任务中的评估框架对DPPfd-EXPEI的早期检测性能进行评估。在下面的小节中,我们描述了eRisk评估框架,我们配置和调整早期决策发布的方法,以及DPPfd-EXPEI的性能与最先进结果的比较。

5.2.1 Evaluation framework of the 2017 and 2018 eRisk shared tasks 2017年和2018年eRisk共享任务的评估框架

eRisk论坛的早期检测挑战在于按时间顺序处理用户的文章, 并尽快检测出抑郁的迹象。为了模拟早期检测场景,将测试集中用户的写作序列(如第3.1.1节所述)按时间划分为10个顺序块。 第一组块包含最早的10%的消息,第二组块包含第二早的10%, 依此类推。

该任务分为训练和测试两个阶段。在训练阶段,发布了训练用户组的全部文件。而在测试阶段,提供了来自测试用户的10个连续数据(块)。在每个数据块发布之后和下一次发布之前,系统对每个用户做出决策。有两种可能的选择:做出决策(抑郁或非抑郁)或不做出决策,这意味着等待更多的数据块。一旦为用户发出决策,它在以后的块中是不可变的。对于方法的评估,要考虑两个方面:i)输出的正确性,ii)做出决策所需的块数量,即发出决策的延迟。第一个方面是通过在正类上的F1测度来评估的。第二个方面由一种新的度量指标——ERDEo(早期风险检测错误)——来评估,该指标惩罚阅读o个文章(或帖子)后的决策,并奖励早期警报。该测量方法在文献[37]中被引入,他们提出使用平均ERDE5和ERDE50作为该任务的性能分数。

5.2.2 Tuning the approach for early decisions 早期决策方法微调

本节将展示如何对该方法进行微调以进行早期检测。考虑了两个方面,表示中使用的特征(词语)数量和发布早期决策的标准。

5.2.2.1. Size of the representation. 表示的规模

为了确定早期检测所需的特征数量,我们根据DPPfd选择的前n个最相关的词语来评估检测性能,其中n = 1000,2000,…4000。结果如图4所示。图4(a)显示,对于eRisk 2017集合,在大多数块中使用1000个词语效果最好,而在eRisk 2018集合中,使用3000个词语明显优于其他配置。这些结果表明,表示的规模(词语数量)与训练集的实例数量有关,即用户数量越多,DPP可以找到的与抑郁症相关的词语数量就越多。

图4:根据两项竞赛中按时间顺序发布的块,在测试数据集上使用不同数量的属性(1000、2000、3000和4000)对所提出的方法进行调优,得到抑郁类的F1值。
5.2.2.2. Criterion for producing early decisions. 制定早期决策的标准 

如前所述,在早期检测场景下,分类器必须能够决定是产生警报(将用户分类为抑郁)还是等待读取下一个信息块。为了在我们的方法中实现这种行为,我们考虑了以下决策启发式:如果在阅读n块信息后,我们的方法将用户分类为抑郁,那么就检查他/她的帖子历史中是否存在与抑郁域对应的一些关键词,如果其中包含三个或更多关键词,则确认决策并生成警报,否则决策将被省略并推迟到阅读下一个信息块。

在实验中,我们使用DPPfd选择的前50个词语构建了特定领域的词汇表。它包括一组单词,这些单词从训练集的抑郁用户那里揭示了最多的个人信息。表5显示了这些词汇中包含的一些单词(按字母顺序列出);可以注意到,这些词语中的大多数都与抑郁领域高度相关。

表5:用于早期预警标准的抑郁领域关键词

5.2.3. Results of the approach in early depression detection 该方法在早期抑郁症检测中的结果

本实验的目的是在早期检测场景中评估所提出的方法,并将其与两个共享任务(eRisk 2017和2018)中最先进的结果进行比较。

图5显示了共享任务的官方结果分布(基于F1指标)。在图中,红叉表示所提出的方法的结果。从图中可以观察到参赛队伍的竞赛结果。值得注意的是,DPPfd-EXPEI方法的表现明显优于eRisk 2017共享任务的获胜者。在eRisk 2018数据集中,表现略低于获胜者;这个结果将使我们的方法排在第二位。巧合的是,在2017年和2018年的eRisk中,最好的F1成绩是由同一支队伍取得的[9,50]。他们提出了一个基于广泛特征集的鲁棒系统,特征集涵盖了从人为制作的特征(例如,与抗抑郁药相关的特定词语)到一些神经网络提取的自动学习特征,特别是一些LSTM排列。

图5:在eRisk 2017和eRisk 2018共享任务中F1结果(抑郁类)的分布。红叉表示使用相同的方法和数据集的情况下DPPfd-EXPEI获得的结果。

与胜者的方法相比,我们的方法非常简单直观。它基于BOW表示,使用与抑郁用户的个人交流相关的词语作为特征。此外,它提供了通过跟踪分类器决策的原因来解释结果的可能性。例如,在给定的帖子中,可以识别出更相关的词语(个人的和与抑郁症有关的)。例如,在图6中对应于特定测试用户的句子中,我们根据单词的EXPEI值(强度越大,相关性越大)来描述单词的估计相关性。我们可以观察到这些词(如愤怒、焦虑、哭泣,情绪,愤怒等)与抑郁症高度相关。

图6:根据EXPEI词加权方案计算给定句子中单词相关性的示例。红色的深浅与[0-1]范围内的EXPEI值有关。

从另一个角度来看,图7显示了基于ERDE度量的官方结果分布。ERDE是一种误差度量,意味着误差越低,系统的性能越好。虽然所提出的方法并没有提高两个集合的最佳结果,但它获得的结果非常接近获胜者。与总体结果趋势类似,该方法在ERDE50中的表现优于在ERDE5中的表现。这表明,该方法需要一定数量的信息才能做出积极的决定。

具体来说,基于ERDE50,该方法将在2017年和2018年的参赛作品中排名第三。基于ERDE5,该方法将在2017年排名第5位,在2018年排名第14位(只高于6支参赛队伍)。尽管我们在ERDE5中取得了最差的成绩,但这并不是一个坏的结果,因为这是所有参与者的平均成绩(几乎在四分之一的极限内)。这些结果显示了DPPfd-EXPEI方法在早期检测上的相关性。

图7:在eRisk 2017和2018共享任务中的结果分布(基于ERDE值)。红叉表示我们提出的方法(DPPfd-EXPEI)获得的结果。

5.3. Results' analysis 结果分析 

5.3.1. Assessing the robustness of DPPfd-EXPEI 评估DPPfd-EXPEI的鲁棒性

为了评估DPPfd-EXPEI方法的鲁棒性,除了使用支持向量机,我们还使用各种分类算法进行了一些额外的实验。在这些实验中,我们还考虑了IG-TF基线方法。特别地,我们使用了以下分类器:k-最近邻(记为kNN,其中k=3、5和7)、随机森林(RF) 和朴素贝叶斯(NB)。在所有情况下,我们都使用了他们的Sklearn实现,并考虑了集合的原始分布,如章节中所述。

表6显示了eRisk 2017年和2018年数据集获得的结果。使用了四种分类器,DPPfd-EXPEI在其中的三种上比IG-TF表现得更好,证实了它对手头任务的适用性。在这两个集合中,使用SVM分类器与DPPfd-EXPEI相结合获得了在抑郁类别上测量的最佳性能。相反,在这两个集合中,使用两种方法,随机森林获得的结果最差,表明它不能正确处理非常分散的数据,正如其处理与抑郁症相关的社交媒体文本的情况一样。

表6:当使用DPPfd-EXPEI和IG-TF构建文本表示时,使用不同的分类算法在正类上的F得分率。

5.3.2. A closer look at the SVM results 更仔细地观察SVM的结果

本节将详细分析SVM分类器所获得的结果。表7显示了DPPfd-EXPEI和IG-TF方法的精度(P)、召回率(R)和F1分数。它还包括每个数据集的混淆矩阵。

从表7中可以看出一个清晰的模式,在作出正类决策时,所提出的DPPfd-EXPEI方法比传统的IG-TF方法更严格,因此呈现出召回率较低但准确率较高的趋势。当比较两种方法的假阳性和假阴性数量时,可以在两个混淆矩阵中清楚地注意到这一点。假阳性的差异非常明显,我们的方法在2017和2018数据集上分别只有15和40个,而IG-TF有41和58个。另一方面,就假阴性而言,两种方法在数据集上的比率更相似,我们的方法有19和27个,而IG-TF有18和31个。

表7:用SVM得到的结果。左边是两个集合的Precision、Recall和F1分数。右边是两个实验的混淆矩阵,行代表真实的类别,列代表预测的类别。抑郁类和非抑郁类分别表示为deep和non- deep。

5.3.3. A qualitative analysis of the classification errors 分类误差的定性分析

为了深入了解所提出方法的结果,我们对上一节中报告的假阳性和假阴性进行了定性分析。

在假阳性失败的主要原因中,我们发现以下几点:

  • 用户谈论其他人的抑郁症。有几位用户分享了家庭成员患有抑郁症的经历。
  • 用户撰写的具有类似临床状况的疾病的文章。一些用户描述的症状与抑郁症非常相似,但实际上与其他类型的精神障碍相对应,如精神分裂症、双相情感障碍等。
  • 用户在评论这个话题,但没有患抑郁症。我们读了很多可能是由心理学家或学生写的研究或解释这种疾病的文档。

所有以前的案例都有一个共同的解释,这些文件的内容与抑郁症相关的词汇有很大的交集。这种情况突出了我们的方法的一个问题,即它基于BoW表示,因此,它不能区分不同的上下文使用。然而,我们认为这种方法工作得很好,在实际场景中可能非常有用,因为这三种情况实际上可以被视为警报。

关于假阴性失败,我们观察到了一个相反的、普遍的和共同的原因:大多数文件显示与抑郁症领域相关的词汇几乎没有交集。例如,一些抑郁的用户只在很少的个人陈述中提到了他们抑郁的迹象,但总的来说,他们分享的话题是非常多样化的。也许,这种行为表明了抑郁症的一次发作,并表明个人已经战胜了疾病。

6. Conclusions and future work 结论和未来的工作

本文利用社交媒体文本,探讨了个人陈述在抑郁症检测中的相关性。从心理学的角度来看,我们的工作受到了两个想法的启发: i)语言使用与精神状态之间存在关系; ii)自我关注与抑郁之间存在联系。特别是,我们假设人们谈论自己时往往会暴露出有价值的信息,这些信息可以揭示他们的精神状态,尤其是抑郁症的迹象。为了评估这一观点,我们提出并评估了DPPfd-EXPEI方法, 该方法强调了个人信息在表示构建中的价值。结果表明: i) “i”和“you”族的代词短语是判别抑郁迹象的重要来源; ii) 使用强调这类信息的方法增强了检测任务;iii) DPPfdEXPEI方法简单,但对早期抑郁症检测有效,同时它比最先进的方法更透明(具有可解释的结果)。特别是,DPPfd-EXPEI使我们能够在自我陈述中捕捉到抑郁症检测的相关线索,在自我陈述中,人们倾向于反映他们的兴趣、观点和问题。然后,在整个新的词加权方法中,可以特别关注与抑郁领域相关的单词(如自杀,害怕,紧张等),与当前其他检测方法使用的更抽象的表示方式相比,心理健康专家可以很容易地对其进行解释。

作为未来的工作,我们有兴趣使用其他数据集来确认获得的结果,不仅是英语,还有其他语言。此外,我们想分析数据集的大小和类不平衡对我们方法性能的影响。此外,我们计划根据早期上下文中每个数据块中单词的权重来探索单词相关性的演变。获得的结果鼓励我们探索新的分布式表示,以更好地利用个人信息。此外,我们有兴趣调整机器学习算法(甚至深度学习架构),从而在分类阶段强调这类信息。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值