deap数据集

最新推荐文章于 2024-08-29 09:35:44 发布

***星星***

最新推荐文章于 2024-08-29 09:35:44 发布

阅读量5.4k

点赞数 2

原文链接：http://www.eecs.qmul.ac.uk/mmv/datasets/deap/readme.html

版权

数据集摘要

DEAP 数据集由两部分组成：

来自在线自我评估的评级，其中120个一分钟的音乐视频摘录由14-16名志愿者根据唤醒，价和优势进行评级。
参与者评分，生理记录和面部视频的实验，其中32名志愿者观看了上述40个音乐视频的子集。记录脑电图和生理信号，每个参与者也对视频进行上述评分。对于22名参与者，还录制了正面面部视频。

有关数据集集合及其内容的更全面说明，请参阅 [1]

文件列表

以下文件可用（下面将更详细地解释每个文件）：

文件名	格式	部分	内容
Online_ratings	XLS， CSV， ODS SPREADSHEET	在线自我评估	在线自我评估中的所有个人评分。
Video_list	XLS， CSV， ODS SPREADSHEET	两部分	名称/YouTube 链接与在线自我评估中使用的音乐视频以及在线自我评估中个人评分的实验 + 统计数据相对应的链接。
Participant_ratings	XLS， CSV， ODS SPREADSHEET	实验	在实验过程中，所有参与者都对视频进行了评分。
Participant_questionnaire	XLS， CSV， ODS SPREADSHEET	实验	参与者在实验前对问卷给出的答案。
Face_video	压缩文件	实验	实验中的正面面部视频记录为参与者1-22。
Data_original	压缩文件	实验	实验中原始未处理的生理数据记录，采用BioSemi .bdf格式
Data_preprocessed	Zip 文件 for Python 和 Matlab	实验	实验中以Matlab和Python（numpy）格式的预处理（减采样，EOG去除，过滤，分割等）生理数据记录

文件详细信息

online_ratings

此文件包含在在线自我评估期间收集的所有单个视频评级。该文件以 Open-Office Calc （online_ratings.ods）、Microsoft Excel （online_ratings.xls）和逗号分隔值（online_ratings.csv）格式提供。

评级是使用在线自我评估工具收集的，如[1]中所述。参与者使用SAM人体模型以离散的9分制对唤醒，价和优势进行评分。此外，参与者还使用情绪轮对感受到的情绪进行评分（见[2]）。

文件中的表每个评级有一行和以下列：

列名	描述: __________
Online_id	与video_list文件中同一列对应的视频 ID。
原子价	价额定值（介于 1 和 9 之间的整数）。
觉醒	唤醒评级（介于 1 和 9 之间的整数）。
优势	优势评级（介于 1 和 9 之间的整数）。
Wheel_slice	在情感轮上选择的切片。对于一些参与者来说，情绪轮评级没有被正确记录。在这些情况下，Wheel_slice值为 0。否则，轮子上的情绪映射到这里给出的整数是：自豪得意洋洋喜悦满意救济希望利息惊喜悲伤恐惧羞耻内疚羡慕厌恶蔑视愤怒
Wheel_strength	在情感轮上选择的强度（介于 0 = 弱和 4 = 强之间的整数）。

video_list

此文件以表格形式列出在线自我评估和实验中使用的所有视频。该文件以 Open-Office Calc （video_list.ods）、Microsoft Excel （video_list.xls）和逗号分隔值（video_list.csv）格式提供。

该表的每个视频有一行，包含以下列：

列名	描述: __________
Online_id	在线自我评估中使用的唯一 ID。
Experiment_id	如果为实验选择了此视频，则会列出实验中使用的唯一 ID。如果未选中，则为空。
Lastfm_tag	如果此视频是通过 last.fm 情感标签选择的，则会列出情感标签。否则为空白。
艺术家	录制这首歌的艺术家。
标题	歌曲的标题。
Youtube_link	下载视频的原始 youtube 链接。请注意，由于版权限制，我们无法提供我们使用的视频，这些链接可能已被删除或在您所在的国家/地区不可用。
Highlight_start	提取的一分钟突出显示开始的时间（以秒为单位），由 MCA 分析确定。对于某些视频，突出显示被手动覆盖（例如，当歌曲的某个部分特别知名时）。
Num_ratings	在线自我评估中对此视频进行评分的志愿者人数
VAQ_Estimate	实验者选择了该视频的价/唤醒象限。对于每个象限，last.fm 选择了 15 个视频，手动选择了 15 个视频。象限是：高唤醒，高价。低唤醒，高价。低唤醒，低价。高唤醒，低价。
VAQ_Online	价/唤醒象限由在线自我评估中志愿者的平均评分确定。请注意，这些可能而且有时确实与估计的象限不同。
AVG_x， STD_x，Q1_x， Q2_x， Q3_x	志愿者在在线自我评估中的平均值、标准差和评分x（价/唤醒/优势）的第一、第二和第三四分位数。

participant_ratings

此文件包含实验期间收集的所有参与者视频评分。该文件以 Open-Office Calc （participant_ratings.ods）、Microsoft Excel （participant_ratings.xls）和逗号分隔值（participant_ratings.csv）格式提供。

start_time值由演示软件记录。在每次试验后，使用标准小鼠以连续的9分制直接对价，唤醒，优势和喜欢进行评级。SAM人体模型用于可视化价，唤醒和支配的评级。为了喜欢（即你有多喜欢这个视频？），使用了竖起大拇指和竖起大拇指的图标。实验结束后，以5分整数等级对熟悉度进行评分（从“以前从未听过”到“经常听”）。不幸的是，参与者 2、15 和 23 缺少熟悉度评级。

文件中的表包含每个参与者视频分级的一行和以下列：

列名	列内容
Participant_id	参与者的唯一 ID （1-32）。
试验	试用编号（即演示顺序）。
Experiment_id	与video_list文件中同一列对应的视频 ID。
Start_time	试用视频播放的开始时间（以微秒为单位）（相对于实验开始时间）。
原子价	价额定值（在 1 到 9 之间浮动）。
觉醒	唤醒评级（浮动在 1 到 9 之间）。
优势	优势评级（在 1 到 9 之间浮动）。
爱好	喜欢评级（浮动在 1 到 9 之间）。
熟悉	熟悉度分级（介于 1 和 5 之间的整数）。如果缺失，则为空白。

participant_questionnaire

该文件包含参与者对实验前填写的问卷的回答。该文件以 Open-Office Calc （participant_questionnaire.ods）、Microsoft Excel （participant_questionnaire.xls）和逗号分隔值（participant_questionnaire.csv）格式提供。

问卷中的大多数问题都是多项选择题，几乎不言自明。不幸的是，参与者26未能填写问卷。该调查问卷还包含同意书上问题的答案（数据可以用于研究，您的图像可以发布吗？

face_video.zip

Face_video.zip包含实验中为前22名参与者录制的正面面部视频，分为试验。在 zip 文件中，s XX/sXX_trial_YY.avi对应于受试者XX 的试用 YY 视频。

对于受试者3、5、11和14，由于技术问题（即磁带用完），最后一项或几项试验缺失。请注意，这些视频按演示顺序排列，因此试用编号与video_list文件中的Experiment_id列不对应。试验编号和Experiment_id之间的映射可以在participant_ratings文件中找到。

视频是使用索尼 DCR-HC27E 摄录一体机从放置在屏幕后面的三脚架以 DV PAL 格式录制的。然后根据试验对视频进行分割，并使用h264编解码器转码为50 fps的去隔行扫描视频。转码是使用 mencoder 软件完成的，使用以下命令完成：

mencoder sXX.dv -ss trialYY_start_second -endpos 59.05 -nosound -of avi -ovc x264
  -fps 50 -vf yadif=1:1,hqdn3d -x264encopts bitrate=50:subq=5:8x8dct:frameref=2:bframes=3 
  -noskip -ofps 50 -o sXX_trialYY.avi

视频的同步精确到大约 1/25 秒（除非人为错误）。通过在实验前后显示红色屏幕以及发送到脑电图记录PC的标记来实现同步。然后在视频录制中手动标记此屏幕的起始帧。然后根据脑电图记录中的试验开始标记计算单个试验开始时间。

data_original.zip

这些是原始数据记录。有32个.bdf文件（由Actiview录音软件生成的BioSemi数据格式），每个文件有48个512Hz的录制通道（32个脑电图通道，12个外围通道，3个未使用的通道和1个状态通道）。.bdf文件可以被各种软件工具包读取，包括用于Matlab的EEGLAB和BIOSIG工具包。

数据记录在两个不同的位置。参与者1-22在特温特记录，参与者23-32在日内瓦记录。由于硬件版本不同，格式存在一些细微差异。首先，两个位置的脑电图通道顺序不同。其次，每个地点的GSR措施采用不同的格式。

下表给出了两个位置的 EEG 通道名称（根据 10/20 系统）以及可用于将一个订单转换为另一个订单的索引：

频道号	中文名特温特	中文名日内瓦	日内瓦>特温特	特温特>日内瓦
1	哎呀	哎呀	1	1
2	AF3	AF3	2	2
3	F7	F3	4	4
4	F3	F7	3	3
5	发展中国家	中国共产党	6	6
6	中国共产党	发展中国家	5	5
7	T7	C3	8	8
8	C3	T7	7	7
9	菲亚特动力科技	CP5	10	10
10	CP5	菲亚特动力科技	9	9
11	小七	小三	12	12
12	小三	小七	11	11
13	Pz	PO3	16	14
14	PO3	O1	13	15
15	O1	奥兹	14	16
16	奥兹	Pz	15	13
17	O2	Fp2	32	30
18	PO4	AF4	31	29
19	小四	Fz	29	31
20	小八	F4	30	27
21	转数快	F8	27	28
22	CP2	CCS	28	25
23	C4	FC2	25	26
24	T8	Cz	26	32
25	CCS	C4	22	23
26	FC2	T8	23	24
27	F4	转数快	20	21
28	F8	CP2	21	22
29	AF4	小四	18	19
30	Fp2	小八	17	20
31	Fz	PO4	19	18
32	Cz	O2	24	17

The remaining channel numbering is the same for both locations. However, please note the GSR measurement is in different units for the two locations. The Twente GSR measurement is skin resistance in nano-Siemens, whereas the Geneva GSR measurement is skin conductance in Ohm. The conversion is given by:

GSRGeneva = 109 / GSRTwente

The following table gives the meaning of the remaining channels:

Channel number	Channel name	Channel content
33	EXG1	hEOG1 (to the left of left eye)
34	EXG2	hEOG2 (to the right of right eye)
35	EXG3	vEOG1 (above right eye)
36	EXG4	vEOG4 (below right eye)
37	EXG5	zEMG1 (Zygomaticus Major, +/- 1cm from left corner of mouth)
38	EXG6	zEMG2 (Zygomaticus Major, +/- 1cm from zEMG1)
39	EXG7	tEMG1 (Trapezius, left shoulder blade)
40	EXG8	tEMG2 (Trapezius, +/- 1cm below tEMG1)
41	GSR1	Galvanic skin response, left middle and ring finger
42	GSR2	Unused
43	Erg1	Unused
44	Erg2	Unused
45	Resp	Respiration belt
46	Plet	Plethysmograph, left thumb
47	Temp	Temperature, left pinky
48	Status	Status channel containing markers

The status channel contains markers sent from the stimuli presentation PC, indicating when trials start and end. The following status markers were employed:

Status code	Event duration	Event Description
1 (First occurence)	N/A	start of experiment (participant pressed key to start)
1 (Second occurence)	120000 ms	start of baseline recording
1 (Further occurences)	N/A	start of a rating screen
2	1000 ms	Video synchronization screen (before first trial, before and after break, after last trial)
3	5000 ms	Fixation screen before beginning of trial
4	60000 ms	Start of music video playback
5	3000 ms	Fixation screen after music video playback
7	N/A	End of experiment

data_preprocessed_matlab.zip and data_preprocessed_python.zip

These files contain a downsampled (to 128Hz), preprocessed and segmented version of the data in Matlab (data_preprocessed_matlab.zip) and pickled python/numpy (data_preprocessed_python.zip) formats. This version of the data is well-suited to those wishing to quickly test a classification or regression technique without the hassle of processing all the data first. Each zip file contains 32 .dat (python) or .mat (matlab) files, one per participant. Some sample code to load a python datafile is below:

import cPickle
x = cPickle.load(open('s01.dat', 'rb'))

Each participant file contains two arrays:

Array name	Array shape	Array contents
data	40 x 40 x 8064	video/trial x channel x data
labels	40 x 4	video/trial x label (valence, arousal, dominance, liking)

The videos are in the order of Experiment_id, so not in the order of presentation. This means the first video is the same for each participant. The following table shows the channel layout and the preprocessing performed:

Channel no.	Channel content	Preprocessing
1	Fp1	The data was downsampled to 128Hz. EOG artefacts were removed as in [1]. A bandpass frequency filter from 4.0-45.0Hz was applied. The data was averaged to the common reference. The EEG channels were reordered so that they all follow the Geneva order as above. The data was segmented into 60 second trials and a 3 second pre-trial baseline removed. The trials were reordered from presentation order to video (Experiment_id) order.
2	AF3
3	F3
4	F7
5	FC5
6	FC1
7	C3
8	T7
9	CP5
10	CP1
11	P3
12	P7
13	PO3
14	O1
15	Oz
16	Pz
17	Fp2
18	AF4
19	Fz
20	F4
21	F8
22	FC6
23	FC2
24	Cz
25	C4
26	T8
27	CP6
28	CP2
29	P4
30	P8
31	PO4
32	O2
33	hEOG (horizontal EOG, hEOG1 - hEOG2)	The data was downsampled to 128Hz. The data was segmented into 60 second trials and a 3 second pre-trial baseline removed. The trials were reordered from presentation order to video (Experiment_id) order.
34	vEOG (vertical EOG, vEOG1 - vEOG2)
35	zEMG (Zygomaticus Major EMG, zEMG1 - zEMG2)
36	tEMG (Trapezius EMG, tEMG1 - tEMG2)
37	GSR (values from Twente converted to Geneva format (Ohm))
38	Respiration belt
39	Plethysmograph
40	Temperature

references

"DEAP: A Database for Emotion Analysis using Physiological Signals", S. Koelstra, C. Muehl, M. Soleymani, J.-S. Lee, A. Yazdani, T. Ebrahimi, T. Pun, A. Nijholt, I. Patras, IEEE Transactions on Affective Computing, Special Issue on Naturalistic Affect Resources for System Building and Evaluation, in press
"What are emotions? And how can they be measured", K.R. Scherer, Social Science Information,vol. 44, no. 4, pp. 695-729, 2005.