【抑郁数据集】DAIC-WOZ和E-DAIC（Extended-DAIC）

最新推荐文章于 2024-12-20 09:44:46 发布

赵小闲

最新推荐文章于 2024-12-20 09:44:46 发布

阅读量9.6k

点赞数 31

分类专栏：抑郁检测文章标签：深度学习

本文链接：https://blog.csdn.net/Nirvana_xian/article/details/134954774

版权

抑郁检测专栏收录该内容

1 篇文章

订阅专栏

本文介绍了DAIC-WOZ抑郁分析访谈语料库，包含临床访谈记录，用于训练识别精神疾病的计算机代理。数据集包括音频、视频和问卷，详细描述了数据结构、样本特点及文件组织，指出E-DAIC的扩展和数据集划分。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

获取方式：

进入官网:Home - DAIC-WOZ (usc.edu),填写申请，我在过了两天之后收到了回复邮件和下载链接。

DAIC-WOZ：

DAIC-WOZ数据库是抑郁分析访谈语料库(Distress Analysis Interview Corpus, DAIC) 的一部分，该语料库主要包含临床访谈记录，旨在支持对焦虑、抑郁和创伤后应激障碍等心理困扰状况的诊断。这些访谈数据被收集起来，作为训练一个计算机代理的数据。该代理能够自动对人们进行访谈，并在语言(verbal)和非语言(nonverbal)指标上识别精神疾病。收集的数据包括音频和视频记录以及大量的的问卷回答；这部分语料库包括一个名为Ellie的动画虚拟面试官主持的Oz访谈，由另一个房间里的真人面试官控制。数据已被转录和注释的各种语言的和非语言的特征。

下载后有一个官方pdf介绍：

数据包中包含编号300-492、共189个数据样本（其中 342,394,398,460 因技术原因被移除）。数据包格式如下：

Pack\
	300_P
	301_P
	...
	492_P
	util
	documents
	train_split.csv
	dev_split.csv
	test_split.csv

部分样本需要提醒：

373 - 在5:52-7:00有一个中断，助手进入房间解决一个小的技术问题，会议继续进行并结束。
444 - 在4:46-6:27左右有一个中断，参与者的手机响了，助手进入房间帮助他们关机。
451,458,480 - 会话在技术上是完整的，但是缺少了Ellie(虚拟人类)部分的记录。参与者的成绩单仍然包括在内，但没有面试官的问题。
402 - 视频结尾被删减了约2分钟。

train_split_Depression_AVEC2017.csv：此文件包含参与者ID ，PHQ8（Kroenke等人，20009）二进制标签（PHQ8分数> = 10），PHQ8分数和参与者性别，并对每个正式训练分割的PHQ8问卷的问题。
PHQ8指患者的健康问卷。详细信息在文档文件夹文件中提供：scherer_etal2015_VowelSpace.pdf。
dev_split_Depression_AVEC2017.csv：此文件包含参与者ID，PHQ8二进制标签，PHQ8问卷中每个问题的分数，参与者性别和PHQ8为问卷中对与正式进行分割有利的每个问题的回答。
。
test_split_Depression_AVEC2017.csv：此文件包含参与者ID和参与者性别官方测试分组。
每个会话文件夹都包含以下文件（其中XXX是会话号，例如XXX = 301 in
文件夹301_P）。

每个样本文件夹下文件组织如下：

XXX_P\ 
  XXX_CLNF_features.txt 
  XXX_CLNF_features3D.txt 
  XXX_CLNF_gaze.txt 
  XXX_CLNF_hog.bin 
  XXX_CLNF_pose.txt 
  XXX_CLNF_AUs.csv   
  XXX_AUDIO.wav 
  XXX_COVAREP.csv 
  XXX_FORMANT.csv 
  XXX_TRANSCRIPT.csv

util文件夹组织如下：

1
2
3

util\ 
  runHOGread_example.m 
  Read_HOG_files.m

File description and feature documentation

这部分表述的是每个样本文件夹下各个文件的作用。

1 CLNF framework output

这部分是由CLNF人脸关键点检测算法输出的数据，包括以下文件：

XXX.CLNF_features.txt
- 包含68个2D人脸关键点；
- 文件格式：frame, timestamp(seconds), confidence, detection_success, x0, x1,…, x67, y0, y1,…, y67。分别表示帧、时间点、置信度、是否检查成功，各个关键点坐标；
- 值之间由逗号分隔，虽然后缀是txt但应该当作csv文件处理。
XXX_CLNF_AUs.csv
- AU表示Action Unit，是面部表情编码系统(Facial Action Coding System, FACS)的运动单元。每一个AU代表一个表情元素；
- 文件格式：frame, timestamp, confidence, success, AU01_r, AU02_r, AU04_r, AU05_r, AU06_r, AU09_r, AU10_r, AU12_r, AU14_r, AU15_r, AU17_r, AU20_r, AU25_r, AU26_r, AU04_c, AU12_c, AU15_c, AU23_c, AU28_c, AU45_c。其中AUX_r表示该面部包含该AU的概率，而AUX_c则用二值表示是否包含该AU。
XXX.CLNF_features3D.txt
- 包含68个3D人脸关键点；
- 格式与2D的类似，只是多了个坐标轴。以摄像机为坐标(0,0,0)，单位为毫米。
XXX.CLNF_gaze.txt
- 文件包含4个视线向量。前两个表示以世界为坐标空间，双眼的视线向量；后两个表示以头为坐标空间，双眼的视线向量。
- 文件格式：frame, timestamp(seconds), confidence, detection_success, x_0, y_0, z_0, x_1, y_1, z_1, x_h0, y_h0, z_h0, x_h1, y_h1, z_h1
XXX.CLNF_hog.bin
- Felzenswalb’s HoG
XXX.CLNF_pose.txt
- pose文件包含两个坐标，X,Y,Z是位置坐标，Rx,Ry,Rz是头部旋转坐标。位置是以毫米为单位的世界坐标，旋转是以弧度和欧拉角为单位的(为了得到一个合适的旋转矩阵，使用R= Rx Ry Rz)。
- 文件格式：frame_number, timestamp(seconds), confidence, detection_success, X, Y, Z, Rx, Ry, Rz

2 Audio file

XXX_AUDIO.wav
- 耳机录音频率为16kHz。音频文件中可能包含少量虚拟面试官的信息，在处理时使用记录文件(transcript files)来缓解这个问题。
- 头戴式麦克风（Sennheiser HSP 4-EW-3）的音频记录频率为16kHz。音频文件可能包含少量的虚拟面试官（暂停）；使用成绩单文件缓解
  处理时出现此问题。从音频记录中擦除可识别的语音，即在各时间波形归零；使用成绩单文件和关键字**“ scrubbed_entry”**以发现这些实例。清理后的条目也会在功能文件中清零。

3 Transcript file

XXX_TRANSCRIPT.csv
转录约定：
•语料库中的大写单词，但很少见。如果存在，则大写没有意义，除了它是位置名称。
•不完整的单词应标注如下：
如果语音被截断，请写下完整的预期词，然后加上在尖括号中实际发音的部分：人。；
评论只供人类读者使用；
抄写整个单词的原因是为了避免混淆。
通过在非单词上训练处理模块。
无法识别的单词表示为“ xxx”

语音重叠由重叠的时间戳指示。
•成绩单文件是 “tab separated” 文件。
•参与者ID 363上方的虚拟采访者的笔录会自动生成，并且在方括号中提供语音内容之前包含语音的唯一标识符。
例如： 165.854 166.324 Ellie yeah3 (yeah)

4 Audio features

XXX_COVAREP.csv
XXX_FORMANT.csv
•XXX_COVAREP.csv (scrubbed): 提取了以下功能：
1、所有音频功能（包括共振峰；请参见下文）均为10毫秒。因此，
音频功能以100Hz采样。
2、F0, VUV, NAQ, QOQ, H1H2, PSP, MDQ, peakSlope, Rd, Rd_conf, MCEP_0-24、HMPDM_0-24, HMPDD_0-12
3、可以在COVAREP网站上找到每个功能的说明，以及提供的COVAREP出版物中。此外，有关特征提取的确切步骤的信息，详细信息请参见
通过github提供的COVAREP脚本中引用的出版物。
4、一个重要方面是，如果VUV（发声/发声）提供了标记（{0,1}），
当前段已浊或清浊。在清音的情况下，即VUV = 0，人声褶皱没有振动，因此值例如F0，NAQ，QOQ，不应使用H1H2，PSP，MDQ，peakSlope和Rd。
5、清理后的条目设置为零。

** XXX_FORMANT.csv (scrubbed) **

*包含前5个共振峰，即声道
共振频率，这些频率在整个采访中都会被追踪。
清理后的条目设置为零。

E-DAIC

扩展DAIC数据库是由ICT开发的用于抑郁症和创伤后应激障碍评估的DAIC-WOZ数据库的扩展版本。用于 AVEC 2019 的挑战数据可在此处获得。

（E-DAIC）（DeVault等人，2014）是WOZ-DAIC（Gratch等人，2014）的扩展版本，其中包含半临床访谈，旨在支持对焦虑、抑郁和创伤后应激障碍等心理痛苦状况的诊断。这些访谈的收集是作为一个更大的努力的一部分，以创建一个计算机代理，采访人们，并识别精神疾病的语言和非语言指标。

这些采访是由一个名叫Ellie的动画虚拟采访者进行的。会话的一个子集被收集在一个Oz向导（WoZ）设置中，其中虚拟代理由另一个房间中的一个人类采访者（向导）控制。另一个子集是使用人工智能控制的代理收集的，该代理使用不同的自动感知和行为生成模块，以一种完全自主的方式采取行动。

数据集被划分为训练、开发和测试集，同时在分区中保留了说话者的整体多样性——包括年龄、性别分布和八项患者健康问卷（PHQ-8）分数。虽然训练和开发集包括WoZ和AI场景的混合，但测试集仅由自主人工智能收集的数据组成。

在[300,492]范围内的会话用Woz控制的代理收集，与[600,718]的会话用ai控制的代理收集。

这些数据包括219个参与者目录，每个目录都遵循以下结构:

参考博客：

DAIC-WOZ数据集-CSDN博客

DAIC-WOZ抑郁评估数据格式 | 某科学のBLOG (a-kali.github.io)

多模态抑郁症的个人总结 - 知乎 (zhihu.com)

DAIC-WOZ

WOZ数据集只有189个样本，数据集划分为107/35/47，另外正负样本也不平衡，大约只有30%的抑郁样本。主要有三个模态：视频，音频和文本。其中视频特征是用OpenFace处理过后的特征，为了保护参与者的隐私没有放出原始视频。音频模态给了原始音频，里面有部分杂音，还有个COVAREP工具包提的特征。因为官方给的特征效果不是很好，音频模态建议还是自己处理，重新用covarep提也好，或是提mfcc等。文本是从音频中转译过来的，有很多重复的单词，看起来还是挺乱的。