获取方式:
进入官网:Home - DAIC-WOZ (usc.edu),填写申请,我在过了两天之后收到了回复邮件和下载链接。
DAIC-WOZ:
DAIC-WOZ数据库是抑郁分析访谈语料库(Distress Analysis Interview Corpus, DAIC) 的一部分,该语料库主要包含临床访谈记录,旨在支持对焦虑、抑郁和创伤后应激障碍等心理困扰状况的诊断。这些访谈数据被收集起来,作为训练一个计算机代理的数据。该代理能够自动对人们进行访谈,并在语言(verbal)和非语言(nonverbal)指标上识别精神疾病。收集的数据包括音频和视频记录以及大量的的问卷回答;这部分语料库包括一个名为Ellie的动画虚拟面试官主持的Oz访谈,由另一个房间里的真人面试官控制。数据已被转录和注释的各种语言的和非语言的特征。
下载后有一个官方pdf介绍:
数据包中包含编号300-492、共189个数据样本(其中 342,394,398,460 因技术原因被移除)。数据包格式如下:
1 2 3 4 5 6 7 8 9 10 | Pack\ 300_P 301_P ... 492_P util documents train_split.csv dev_split.csv test_split.csv |
部分样本需要提醒:
- 373 - 在5:52-7:00有一个中断,助手进入房间解决一个小的技术问题,会议继续进行并结束。
- 444 - 在4:46-6:27左右有一个中断,参与者的手机响了,助手进入房间帮助他们关机。
- 451,458,480 - 会话在技术上是完整的,但是缺少了Ellie(虚拟人类)部分的记录。参与者的成绩单仍然包括在内,但没有面试官的问题。
- 402 - 视频结尾被删减了约2分钟。
train_split_Depression_AVEC2017.csv:此文件包含参与者ID ,PHQ8(Kroenke等人,20009)二进制标签(PHQ8分数> = 10),PHQ8分数和参与者性别,并对每个正式训练分割的PHQ8问卷的问题 。
PHQ8指患者的健康问卷。 详细信息在文档文件夹文件中提供:scherer_etal2015_VowelSpace.pdf。
dev_split_Depression_AVEC2017.csv:此文件包含参与者ID,PHQ8二进制标签,PHQ8问卷中每个问题的分数,参与者性别和PHQ8为问卷中对与正式进行分割有利的每个问题的回答。
。
test_split_Depression_AVEC2017.csv:此文件包含参与者ID和参与者性别官方测试分组。
每个会话文件夹都包含以下文件(其中XXX是会话号,例如XXX = 301 in
文件夹301_P)。
每个样本文件夹下文件组织如下:
1 2 3 4 5 6 7 8 9 10 11 | XXX_P\ XXX_CLNF_features.txt XXX_CLNF_features3D.txt XXX_CLNF_gaze.txt XXX_CLNF_hog.bin XXX_CLNF_pose.txt XXX_CLNF_AUs.csv XXX_AUDIO.wav XXX_COVAREP.csv XXX_FORMANT.csv XXX_TRANSCRIPT.csv |
util文件夹组织如下:
1 2 3 | util\ runHOGread_example.m Read_HOG_files.m |
File description and feature documentation
这部分表述的是每个样本文件夹下各个文件的作用。
1 CLNF framework output
这部分是由CLNF人脸关键点检测算法输出的数据,包括以下文件:
- XXX.CLNF_features.txt
- 包含68个2D人脸关键点;
- 文件格式:frame, timestamp(seconds), confidence, detection_success, x0, x1,…, x67, y0, y1,…, y67。分别表示 帧、时间点、置信度、是否检查成功,各个关键点坐标;
- 值之间由逗号分隔,虽然后缀是txt但应该当作csv文件处理。
- XXX_CLNF_AUs.csv
- AU表示Action Unit,是面部表情编码系统(Facial Action Coding System, FACS)的运动单元。每一个AU代表一个表情元素;
- 文件格式:frame, timestamp, confidence, success, AU01_r, AU02_r, AU04_r, AU05_r, AU06_r, AU09_r, AU10_r, AU12_r, AU14_r, AU15_r, AU17_r, AU20_r, AU25_r, AU26_r, AU04_c, AU12_c, AU15_c, AU23_c, AU28_c, AU45_c。其中AUX_r表示该面部包含该AU的概率,而AUX_c则用二值表示是否包含该AU。
- XXX.CLNF_features3D.txt
- 包含68个3D人脸关键点;
- 格式与2D的类似,只是多了个坐标轴。以摄像机为坐标(0,0,0),单位为毫米。
- XXX.CLNF_gaze.txt
- 文件包含4个视线向量。前两个表示以世界为坐标空间,双眼的视线向量;后两个表示以头为坐标空间,双眼的视线向量。
- 文件格式:frame, timestamp(seconds), confidence, detection_success, x_0, y_0, z_0, x_1, y_1, z_1, x_h0, y_h0, z_h0, x_h1, y_h1, z_h1
- XXX.CLNF_hog.bin
- Felzenswalb’s HoG
- XXX.CLNF_pose.txt
- pose文件包含两个坐标,X,Y,Z是位置坐标,Rx,Ry,Rz是头部旋转坐标。位置是以毫米为单位的世界坐标,旋转是以弧度和欧拉角为单位的(为了得到一个合适的旋转矩阵,使用R= Rx Ry Rz)。
- 文件格式:frame_number, timestamp(seconds), confidence, detection_success, X, Y, Z, Rx, Ry, Rz
2 Audio file
- XXX_AUDIO.wav
- 耳机录音频率为16kHz。音频文件中可能包含少量虚拟面试官的信息,在处理时使用记录文件(transcript files)来缓解这个问题。
- 头戴式麦克风(Sennheiser HSP 4-EW-3)的音频记录频率为16kHz。 音频文件可能包含少量的虚拟面试官(暂停); 使用成绩单文件缓解
处理时出现此问题。 从音频记录中擦除可识别的语音,即在各时间波形归零; 使用成绩单文件和关键字**“ scrubbed_entry”**以发现这些实例。 清理后的条目也会在功能文件中清零。
3 Transcript file
- XXX_TRANSCRIPT.csv
-
转录约定:
•语料库中的大写单词,但很少见。 如果存在,则大写没有意义,除了它是位置名称。
•不完整的单词应标注如下:
如果语音被截断,请写下完整的预期词,然后加上在尖括号中实际发音的部 分:人。;
评论只供人类读者使用;
抄写整个单词的原因是为了避免混淆。
通过在非单词上训练处理模块。
无法识别的单词表示为“ xxx”语音重叠由重叠的时间戳指示。
•成绩单文件是 “tab separated” 文件。
•参与者ID 363上方的虚拟采访者的笔录会自动生成,并且在方括号中提供语音内容之前包含语音的唯一标识符。
例如: 165.854 166.324 Ellie yeah3 (yeah)
4 Audio features
- XXX_COVAREP.csv
- XXX_FORMANT.csv
-
•XXX_COVAREP.csv (scrubbed): 提取了以下功能:
1、所有音频功能(包括共振峰;请参见下文)均为10毫秒。 因此,
音频功能以100Hz采样。
2、F0, VUV, NAQ, QOQ, H1H2, PSP, MDQ, peakSlope, Rd, Rd_conf, MCEP_0-24、HMPDM_0-24, HMPDD_0-12
3、可以在COVAREP网站上找到每个功能的说明,以及提供的COVAREP出版物中。 此外,有关特征提取的确切步骤的信息,详细信息请参见
通过github提供的COVAREP脚本中引用的出版物。
4、一个重要方面是,如果VUV(发声/发声)提供了标记({0,1}),
当前段已浊或清浊。 在清音的情况下,即VUV = 0,人声褶皱没有振动,因此值例如F0,NAQ,QOQ,不应使用H1H2,PSP,MDQ,peakSlope和Rd。
5、清理后的条目设置为零。** XXX_FORMANT.csv (scrubbed) **
*包含前5个共振峰,即声道
共振频率,这些频率在整个采访中都会被追踪。
清理后的条目设置为零。
E-DAIC
扩展DAIC数据库是由ICT开发的用于抑郁症和创伤后应激障碍评估的DAIC-WOZ数据库的扩展版本。用于 AVEC 2019 的挑战数据可在此处获得。
(E-DAIC)(DeVault等人,2014)是WOZ-DAIC(Gratch等人,2014)的扩展版本,其中包含半临床访谈,旨在支持对焦虑、抑郁和创伤后应激障碍等心理痛苦状况的诊断。这些访谈的收集是作为一个更大的努力的一部分,以创建一个计算机代理,采访人们,并识别精神疾病的语言和非语言指标。
这些采访是由一个名叫Ellie的动画虚拟采访者进行的。会话的一个子集被收集在一个Oz向导(WoZ)设置中,其中虚拟代理由另一个房间中的一个人类采访者(向导)控制。另一个子集是使用人工智能控制的代理收集的,该代理使用不同的自动感知和行为生成模块,以一种完全自主的方式采取行动。
数据集被划分为训练、开发和测试集,同时在分区中保留了说话者的整体多样性——包括年龄、性别分布和八项患者健康问卷(PHQ-8)分数。虽然训练和开发集包括WoZ和AI场景的混合,但测试集仅由自主人工智能收集的数据组成。
在[300,492]范围内的会话用Woz控制的代理收集,与[600,718]的会话用ai控制的代理收集。
这些数据包括219个参与者目录,每个目录都遵循以下结构:
参考博客:
DAIC-WOZ抑郁评估数据格式 | 某科学のBLOG (a-kali.github.io)
WOZ数据集只有189个样本,数据集划分为107/35/47,另外正负样本也不平衡,大约只有30%的抑郁样本。主要有三个模态:视频,音频和文本。其中视频特征是用OpenFace处理过后的特征,为了保护参与者的隐私没有放出原始视频。音频模态给了原始音频,里面有部分杂音,还有个COVAREP工具包提的特征。因为官方给的特征效果不是很好,音频模态建议还是自己处理,重新用covarep提也好,或是提mfcc等。文本是从音频中转译过来的,有很多重复的单词,看起来还是挺乱的。