【抑郁数据集】DAIC-WOZ和E-DAIC(Extended-DAIC)

获取方式:

进入官网:Home - DAIC-WOZ (usc.edu),填写申请,我在过了两天之后收到了回复邮件和下载链接。

DAIC-WOZ:

DAIC-WOZ数据库是抑郁分析访谈语料库(Distress Analysis Interview Corpus, DAIC) 的一部分,该语料库主要包含临床访谈记录,旨在支持对焦虑、抑郁和创伤后应激障碍等心理困扰状况的诊断。这些访谈数据被收集起来,作为训练一个计算机代理的数据。该代理能够自动对人们进行访谈,并在语言(verbal)和非语言(nonverbal)指标上识别精神疾病。收集的数据包括音频和视频记录以及大量的的问卷回答;这部分语料库包括一个名为Ellie的动画虚拟面试官主持的Oz访谈,由另一个房间里的真人面试官控制。数据已被转录和注释的各种语言的和非语言的特征。

下载后有一个官方pdf介绍:

数据包中包含编号300-492、共189个数据样本(其中 342,394,398,460 因技术原因被移除)。数据包格式如下:

1
2
3
4
5
6
7
8
9
10
Pack\
	300_P
	301_P
	...
	492_P
	util
	documents
	train_split.csv
	dev_split.csv
	test_split.csv

部分样本需要提醒:

  • 373 - 在5:52-7:00有一个中断,助手进入房间解决一个小的技术问题,会议继续进行并结束。
  • 444 - 在4:46-6:27左右有一个中断,参与者的手机响了,助手进入房间帮助他们关机。
  • 451,458,480 - 会话在技术上是完整的,但是缺少了Ellie(虚拟人类)部分的记录。参与者的成绩单仍然包括在内,但没有面试官的问题。
  • 402 - 视频结尾被删减了约2分钟。

train_split_Depression_AVEC2017.csv:此文件包含参与者ID ,PHQ8(Kroenke等人,20009)二进制标签(PHQ8分数> = 10),PHQ8分数和参与者性别,并对每个正式训练分割的PHQ8问卷的问题 。
PHQ8指患者的健康问卷。 详细信息在文档文件夹文件中提供:scherer_etal2015_VowelSpace.pdf
dev_split_Depression_AVEC2017.csv:此文件包含参与者ID,PHQ8二进制标签,PHQ8问卷中每个问题的分数,参与者性别和PHQ8为问卷中对与正式进行分割有利的每个问题的回答。

test_split_Depression_AVEC2017.csv:此文件包含参与者ID和参与者性别官方测试分组。
每个会话文件夹都包含以下文件(其中XXX是会话号,例如XXX = 301 in
文件夹301_P)。

每个样本文件夹下文件组织如下:

1
2
3
4
5
6
7
8
9
10
11
XXX_P\ 
  XXX_CLNF_features.txt 
  XXX_CLNF_features3D.txt 
  XXX_CLNF_gaze.txt 
  XXX_CLNF_hog.bin 
  XXX_CLNF_pose.txt 
  XXX_CLNF_AUs.csv   
  XXX_AUDIO.wav 
  XXX_COVAREP.csv 
  XXX_FORMANT.csv 
  XXX_TRANSCRIPT.csv

util文件夹组织如下:

1
2
3
util\ 
  runHOGread_example.m 
  Read_HOG_files.m

File description and feature documentation

这部分表述的是每个样本文件夹下各个文件的作用。

1 CLNF framework output

这部分是由CLNF人脸关键点检测算法输出的数据,包括以下文件:

  • XXX.CLNF_features.txt
    • 包含68个2D人脸关键点;
    • 文件格式:frame, timestamp(seconds), confidence, detection_success, x0, x1,…, x67, y0, y1,…, y67。分别表示 帧、时间点、置信度、是否检查成功,各个关键点坐标;
    • 值之间由逗号分隔,虽然后缀是txt但应该当作csv文件处理。
  • XXX_CLNF_AUs.csv
    • AU表示Action Unit,是面部表情编码系统(Facial Action Coding System, FACS)的运动单元。每一个AU代表一个表情元素;
    • 文件格式:frame, timestamp, confidence, success, AU01_r, AU02_r, AU04_r, AU05_r, AU06_r, AU09_r, AU10_r, AU12_r, AU14_r, AU15_r, AU17_r, AU20_r, AU25_r, AU26_r, AU04_c, AU12_c, AU15_c, AU23_c, AU28_c, AU45_c。其中AUX_r表示该面部包含该AU的概率,而AUX_c则用二值表示是否包含该AU。
  • XXX.CLNF_features3D.txt
    • 包含68个3D人脸关键点;
    • 格式与2D的类似,只是多了个坐标轴。以摄像机为坐标(0,0,0),单位为毫米。
  • XXX.CLNF_gaze.txt
    • 文件包含4个视线向量。前两个表示以世界为坐标空间,双眼的视线向量;后两个表示以头为坐标空间,双眼的视线向量。
    • 文件格式:frame, timestamp(seconds), confidence, detection_success, x_0, y_0, z_0, x_1, y_1, z_1, x_h0, y_h0, z_h0, x_h1, y_h1, z_h1
  • XXX.CLNF_hog.bin
    • Felzenswalb’s HoG
  • XXX.CLNF_pose.txt
    • pose文件包含两个坐标,X,Y,Z是位置坐标,Rx,Ry,Rz是头部旋转坐标。位置是以毫米为单位的世界坐标,旋转是以弧度和欧拉角为单位的(为了得到一个合适的旋转矩阵,使用R= Rx Ry Rz)。
    • 文件格式:frame_number, timestamp(seconds), confidence, detection_success, X, Y, Z, Rx, Ry, Rz
2 Audio file
  • XXX_AUDIO.wav
    • 耳机录音频率为16kHz。音频文件中可能包含少量虚拟面试官的信息,在处理时使用记录文件(transcript files)来缓解这个问题。
    • 头戴式麦克风(Sennheiser HSP 4-EW-3)的音频记录频率为16kHz。 音频文件可能包含少量的虚拟面试官(暂停); 使用成绩单文件缓解
      处理时出现此问题。 从音频记录中擦除可识别的语音,即在各时间波形归零; 使用成绩单文件和关键字**“ scrubbed_entry”**以发现这些实例。 清理后的条目也会在功能文件中清零。
3 Transcript file
  • XXX_TRANSCRIPT.csv
  • 转录约定:
    •语料库中的大写单词,但很少见。 如果存在,则大写没有意义,除了它是位置名称。
    •不完整的单词应标注如下:
    如果语音被截断,请写下完整的预期词,然后加上在尖括号中实际发音的部 分:人。;
    评论只供人类读者使用;
    抄写整个单词的原因是为了避免混淆。
    通过在非单词上训练处理模块。
    无法识别的单词表示为“ xxx”

    语音重叠由重叠的时间戳指示。
    •成绩单文件是 “tab separated” 文件。
    •参与者ID 363上方的虚拟采访者的笔录会自动生成,并且在方括号中提供语音内容之前包含语音的唯一标识符。
    例如: 165.854 166.324 Ellie yeah3 (yeah)

4 Audio features

  • XXX_COVAREP.csv
  • XXX_FORMANT.csv
  • •XXX_COVAREP.csv (scrubbed): 提取了以下功能:
    1、所有音频功能(包括共振峰;请参见下文)均为10毫秒。 因此,
    音频功能以100Hz采样。
    2、F0, VUV, NAQ, QOQ, H1H2, PSP, MDQ, peakSlope, Rd, Rd_conf, MCEP_0-24、HMPDM_0-24, HMPDD_0-12
    3、可以在COVAREP网站上找到每个功能的说明,以及提供的COVAREP出版物中。 此外,有关特征提取的确切步骤的信息,详细信息请参见
    通过github提供的COVAREP脚本中引用的出版物。
    4、一个重要方面是,如果VUV(发声/发声)提供了标记({0,1}),
    当前段已浊或清浊。 在清音的情况下,即VUV = 0,人声褶皱没有振动,因此值例如F0,NAQ,QOQ,不应使用H1H2,PSP,MDQ,peakSlope和Rd。
    5、清理后的条目设置为零。

    ** XXX_FORMANT.csv (scrubbed) **

    *包含前5个共振峰,即声道
    共振频率,这些频率在整个采访中都会被追踪。
    清理后的条目设置为零。

E-DAIC

扩展DAIC数据库是由ICT开发的用于抑郁症和创伤后应激障碍评估的DAIC-WOZ数据库的扩展版本。用于 AVEC 2019 的挑战数据可在此处获得。

(E-DAIC)(DeVault等人,2014)是WOZ-DAIC(Gratch等人,2014)的扩展版本,其中包含半临床访谈,旨在支持对焦虑、抑郁和创伤后应激障碍等心理痛苦状况的诊断。这些访谈的收集是作为一个更大的努力的一部分,以创建一个计算机代理,采访人们,并识别精神疾病的语言和非语言指标。

这些采访是由一个名叫Ellie的动画虚拟采访者进行的。会话的一个子集被收集在一个Oz向导(WoZ)设置中,其中虚拟代理由另一个房间中的一个人类采访者(向导)控制。另一个子集是使用人工智能控制的代理收集的,该代理使用不同的自动感知和行为生成模块,以一种完全自主的方式采取行动。

数据集被划分为训练、开发和测试集,同时在分区中保留了说话者的整体多样性——包括年龄、性别分布和八项患者健康问卷(PHQ-8)分数。虽然训练和开发集包括WoZ和AI场景的混合,但测试集仅由自主人工智能收集的数据组成。

在[300,492]范围内的会话用Woz控制的代理收集,与[600,718]的会话用ai控制的代理收集。

这些数据包括219个参与者目录,每个目录都遵循以下结构:

参考博客:

DAIC-WOZ数据集-CSDN博客

DAIC-WOZ抑郁评估数据格式 | 某科学のBLOG (a-kali.github.io)

多模态抑郁症的个人总结 - 知乎 (zhihu.com)

DAIC-WOZ

WOZ数据集只有189个样本,数据集划分为107/35/47,另外正负样本也不平衡,大约只有30%的抑郁样本。主要有三个模态:视频,音频和文本。其中视频特征是用OpenFace处理过后的特征,为了保护参与者的隐私没有放出原始视频。音频模态给了原始音频,里面有部分杂音,还有个COVAREP工具包提的特征。因为官方给的特征效果不是很好,音频模态建议还是自己处理,重新用covarep提也好,或是提mfcc等。文本是从音频中转译过来的,有很多重复的单词,看起来还是挺乱的。

  • 21
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 15
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 15
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值