【抑郁数据集】DAIC-WOZ和E-DAIC(Extended-DAIC)

获取方式:

进入官网:Home - DAIC-WOZ (usc.edu),填写申请,我在过了两天之后收到了回复邮件和下载链接。

DAIC-WOZ:

DAIC-WOZ数据库是抑郁分析访谈语料库(Distress Analysis Interview Corpus, DAIC) 的一部分,该语料库主要包含临床访谈记录,旨在支持对焦虑、抑郁和创伤后应激障碍等心理困扰状况的诊断。这些访谈数据被收集起来,作为训练一个计算机代理的数据。该代理能够自动对人们进行访谈,并在语言(verbal)和非语言(nonverbal)指标上识别精神疾病。收集的数据包括音频和视频记录以及大量的的问卷回答;这部分语料库包括一个名为Ellie的动画虚拟面试官主持的Oz访谈,由另一个房间里的真人面试官控制。数据已被转录和注释的各种语言的和非语言的特征。

下载后有一个官方pdf介绍:

数据包中包含编号300-492、共189个数据样本(其中 342,394,398,460 因技术原因被移除)。数据包格式如下:

1
2
3
4
5
6
7
8
9
10
Pack\
	300_P
	301_P
	...
	492_P
	util
	documents
	train_split.csv
	dev_split.csv
	test_split.csv

部分样本需要提醒:

  • 373 - 在5:52-7:00有一个中断,助手进入房间解决一个小的技术问题,会议继续进行并结束。
  • 444 - 在4:46-6:27左右有一个中断,参与者的手机响了,助手进入房间帮助他们关机。
  • 451,458,480 - 会话在技术上是完整的,但是缺少了Ellie(虚拟人类)部分的记录。参与者的成绩单仍然包括在内,但没有面试官的问题。
  • 402 - 视频结尾被删减了约2分钟。

train_split_Depression_AVEC2017.csv:此文件包含参与者ID ,PHQ8(Kroenke等人,20009)二进制标签(PHQ8分数> = 10),PHQ8分数和参与者性别,并对每个正式训练分割的PHQ8问卷的问题 。
PHQ8指患者的健康问卷。 详细信息在文档文件夹文件中提供:scherer_etal2015_VowelSpace.pdf
dev_split_Depression_AVEC2017.csv:此文件包含参与者ID,PHQ8二进制标签,PHQ8问卷中每个问题的分数,参与者性别和PHQ8为问卷中对与正式进行分割有利的每个问题的回答。

test_split_Depression_AVEC2017.csv:此文件包含参与者ID和参与者性别官方测试分组。
每个会话文件夹都包含以下文件(其中XXX是会话号,例如XXX = 301 in
文件夹301_P)。

每个样本文件夹下文件组织如下:

1
2
3
4
5
6
7
8
9
10
11
XXX_P\ 
  XXX_CLNF_features.txt 
  XXX_CLNF_features3D.txt 
  XXX_CLNF_gaze.txt 
  XXX_CLNF_hog.bin 
  XXX_CLNF_pose.txt 
  XXX_CLNF_AUs.csv   
  XXX_AUDIO.wav 
  XXX_COVAREP.csv 
  XXX_FORMANT.csv 
  XXX_TRANSCRIPT.csv

util文件夹组织如下:

1
2
3
util\ 
  runHOGread_example.m 
  Read_HOG_files.m

File description and feature documentation

这部分表述的是每个样本文件夹下各个文件的作用。

1 CLNF framework output

这部分是由CLNF人脸关键点检测算法输出的数据,包括以下文件:

  • XXX.CLNF_features.txt
    • 包含68个2D人脸关键点;
    • 文件格式:frame, timestamp(seconds), confidence, detection_success, x0, x1,…, x67, y0, y1,…, y67。分别表示 帧、时间点、置信度、是否检查成功,各个关键点坐标;
    • 值之间由逗号分隔,虽然后缀是txt但应该当作csv文件处理。
  • XXX_CLNF_AUs.csv
    • AU表示Action Unit,是面部表情编码系统(Facial Action Coding System, FACS)的运动单元。每一个AU代表一个表情元素;
    • 文件格式:frame, timestamp, confidence, success, AU01_r, AU02_r, AU04_r, AU05_r, AU06_r, AU09_r, AU10_r, AU12_r, AU14_r, AU15_r, AU17_r, AU20_r, AU25_r, AU26_r, AU04_c, AU12_c, AU15_c, AU23_c, AU28_c, AU45_c。其中AUX_r表示该面部包含该AU的概率,而AUX_c则用二值表示是否包含该AU。
  • XXX.CLNF_features3D.txt
    • 包含68个3D人脸关键点;
    • 格式与2D的类似,只是多了个坐标轴。以摄像机为坐标(0,0,0),单位为毫米。
  • XXX.CLNF_gaze.txt
    • 文件包含4个视线向量。前两个表示以世界为坐标空间,双眼的视线向量;后两个表示以头为坐标空间,双眼的视线向量。
    • 文件格式:frame, timestamp(seconds), confidence, detection_success, x_0, y_0, z_0, x_1, y_1, z_1, x_h0, y_h0, z_h0, x_h1, y_h1, z_h1
  • XXX.CLNF_hog.bin
    • Felzenswalb’s HoG
  • XXX.CLNF_pose.txt
    • pose文件包含两个坐标,X,Y,Z是位置坐标,Rx,Ry,Rz是头部旋转坐标。位置是以毫米为单位的世界坐标,旋转是以弧度和欧拉角为单位的(为了得到一个合适的旋转矩阵,使用R= Rx Ry Rz)。
    • 文件格式:frame_number, timestamp(seconds), confidence, detection_success, X, Y, Z, Rx, Ry, Rz
2 Audio file
  • XXX_AUDIO.wav
    • 耳机录音频率为16kHz。音频文件中可能包含少量虚拟面试官的信息,在处理时使用记录文件(transcript files)来缓解这个问题。
    • 头戴式麦克风(Sennheiser HSP 4-EW-3)的音频记录频率为16kHz。 音频文件可能包含少量的虚拟面试官(暂停); 使用成绩单文件缓解
      处理时出现此问题。 从音频记录中擦除可识别的语音,即在各时间波形归零; 使用成绩单文件和关键字**“ scrubbed_entry”**以发现这些实例。 清理后的条目也会在功能文件中清零。
3 Transcript file
  • XXX_TRANSCRIPT.csv
  • 转录约定:
    •语料库中的大写单词,但很少见。 如果存在,则大写没有意义,除了它是位置名称。
    •不完整的单词应标注如下:
    如果语音被截断,请写下完整的预期词,然后加上在尖括号中实际发音的部 分:人。;
    评论只供人类读者使用;
    抄写整个单词的原因是为了避免混淆。
    通过在非单词上训练处理模块。
    无法识别的单词表示为“ xxx”

    语音重叠由重叠的时间戳指示。
    •成绩单文件是 “tab separated” 文件。
    •参与者ID 363上方的虚拟采访者的笔录会自动生成,并且在方括号中提供语音内容之前包含语音的唯一标识符。
    例如: 165.854 166.324 Ellie yeah3 (yeah)

4 Audio features

  • XXX_COVAREP.csv
  • XXX_FORMANT.csv
  • •XXX_COVAREP.csv (scrubbed): 提取了以下功能:
    1、所有音频功能(包括共振峰;请参见下文)均为10毫秒。 因此,
    音频功能以100Hz采样。
    2、F0, VUV, NAQ, QOQ, H1H2, PSP, MDQ, peakSlope, Rd, Rd_conf, MCEP_0-24、HMPDM_0-24, HMPDD_0-12
    3、可以在COVAREP网站上找到每个功能的说明,以及提供的COVAREP出版物中。 此外,有关特征提取的确切步骤的信息,详细信息请参见
    通过github提供的COVAREP脚本中引用的出版物。
    4、一个重要方面是,如果VUV(发声/发声)提供了标记({0,1}),
    当前段已浊或清浊。 在清音的情况下,即VUV = 0,人声褶皱没有振动,因此值例如F0,NAQ,QOQ,不应使用H1H2,PSP,MDQ,peakSlope和Rd。
    5、清理后的条目设置为零。

    ** XXX_FORMANT.csv (scrubbed) **

    *包含前5个共振峰,即声道
    共振频率,这些频率在整个采访中都会被追踪。
    清理后的条目设置为零。

E-DAIC

扩展DAIC数据库是由ICT开发的用于抑郁症和创伤后应激障碍评估的DAIC-WOZ数据库的扩展版本。用于 AVEC 2019 的挑战数据可在此处获得。

(E-DAIC)(DeVault等人,2014)是WOZ-DAIC(Gratch等人,2014)的扩展版本,其中包含半临床访谈,旨在支持对焦虑、抑郁和创伤后应激障碍等心理痛苦状况的诊断。这些访谈的收集是作为一个更大的努力的一部分,以创建一个计算机代理,采访人们,并识别精神疾病的语言和非语言指标。

这些采访是由一个名叫Ellie的动画虚拟采访者进行的。会话的一个子集被收集在一个Oz向导(WoZ)设置中,其中虚拟代理由另一个房间中的一个人类采访者(向导)控制。另一个子集是使用人工智能控制的代理收集的,该代理使用不同的自动感知和行为生成模块,以一种完全自主的方式采取行动。

数据集被划分为训练、开发和测试集,同时在分区中保留了说话者的整体多样性——包括年龄、性别分布和八项患者健康问卷(PHQ-8)分数。虽然训练和开发集包括WoZ和AI场景的混合,但测试集仅由自主人工智能收集的数据组成。

在[300,492]范围内的会话用Woz控制的代理收集,与[600,718]的会话用ai控制的代理收集。

这些数据包括219个参与者目录,每个目录都遵循以下结构:

参考博客:

DAIC-WOZ数据集-CSDN博客

DAIC-WOZ抑郁评估数据格式 | 某科学のBLOG (a-kali.github.io)

多模态抑郁症的个人总结 - 知乎 (zhihu.com)

DAIC-WOZ

WOZ数据集只有189个样本,数据集划分为107/35/47,另外正负样本也不平衡,大约只有30%的抑郁样本。主要有三个模态:视频,音频和文本。其中视频特征是用OpenFace处理过后的特征,为了保护参与者的隐私没有放出原始视频。音频模态给了原始音频,里面有部分杂音,还有个COVAREP工具包提的特征。因为官方给的特征效果不是很好,音频模态建议还是自己处理,重新用covarep提也好,或是提mfcc等。文本是从音频中转译过来的,有很多重复的单词,看起来还是挺乱的。

【项目介绍】 基于ResNet网络+AVEC2014数据集实现抑郁症诊断python源码+数据集+运行说明.zip ResNet网络的应用—抑郁症诊断 使用数据集:**AVEC2014** 数据集下载地址 <a href="https://pan.baidu.com/s/1Dt6BhVnRoTaxJ4edk0w7aQ?pwd=AVEC">AVEC2014</a> 提取码:AVEC 预处理: ​ 1.**采样**,AVEC2013每个视频取100帧,保留原始label ​ 2.**人脸对齐裁剪**,使用**MTCNN**工具 ### 文件介绍 ``` preprocess.py 主要用于预处理视频信息,从中提取帧,并在视频帧中提取人脸 函数:generate_label_file() 将运来的label合并为一个csv文件 函数:get_img() 抽取视频帧,每个视频按间隔抽取100-105帧 函数:get_face() 使用MTCNN提取人脸,并分割图片 model.py 模型的网络结构 ``` ``` load_data.py 获取图片存放路径以及将标签与之对应 writer.py 创建Tensorboard记录器,保存训练过程损失 dataset.py 继承torch.utils.Dataset,负责将数据转化为torch.utils.data.DataLoader可以处理的迭代器 train.py 模型训练 validate.py 验证模型 test.py 测试模型的性能,并记录预测分数,保存在testInfo.csv,记录了每张图片的路径,label,预测分数 main.py 模型训练入口文件 ``` ``` img 提取的视频帧文件 log Tensorboard日志文件 model_dict 训练好的模型参数文件 processed 存放预处理完成之后的人脸图片,label文件 AVEC2014 数据集存放位置 ``` ``` 查看训练日志方法: 安装tensorboard库之后,输入命令tensorboard --lofdir log_dir_path,打开命令执行后出现的网址即可 log_dir_path是存放Tensorboard日志文件的文件夹路径 ``` ``` 运行顺序:preprocess.py--->main.py--->test.py ``` 【备注】 1.项目代码均经过功能验证,确保稳定可靠运行。欢迎下载食用体验! 2.主要针对各个计算机相关专业,包括计算机科学、信息安全、数据科学与大数据技术、人工智能、通信、物联网等领域的在校学生、专业教师、企业员工。 3.项目具有丰富的拓展空间,不仅可作为入门进阶,也可作为毕设、课程设计、大作业、初期项目立项演示等用途。 4.鼓励大家基于此进行二次开发。在使用过程中,如有问题或建议,请及时沟通。 5.期待你能在项目中找到乐趣和灵感,也欢迎你的分享和反馈!
评论 21
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值