deap数据集

数据集摘要

DEAP 数据集由两部分组成:

  1. 来自在线自我评估的评级,其中120个一分钟的音乐视频摘录由14-16名志愿者根据唤醒,价和优势进行评级。
  2. 参与者评分,生理记录和面部视频的实验,其中32名志愿者观看了上述40个音乐视频的子集。记录脑电图和生理信号,每个参与者也对视频进行上述评分。对于22名参与者,还录制了正面面部视频。

有关数据集集合及其内容的更全面说明,请参阅 [1]

文件列表

以下文件可用(下面将更详细地解释每个文件):

文件名格式部分内容
Online_ratingsXLS, CSV, ODS SPREADSHEET在线自我评估在线自我评估中的所有个人评分。
Video_listXLS, CSV, ODS SPREADSHEET两部分名称/YouTube 链接与在线自我评估中使用的音乐视频以及在线自我评估中个人评分的实验 + 统计数据相对应的链接。
Participant_ratingsXLS, CSV, ODS SPREADSHEET实验在实验过程中,所有参与者都对视频进行了评分。
Participant_questionnaireXLS, CSV, ODS SPREADSHEET实验参与者在实验前对问卷给出的答案。
Face_video压缩文件实验实验中的正面面部视频记录为参与者1-22。
Data_original压缩文件实验实验中原始未处理的生理数据记录,采用BioSemi .bdf格式
Data_preprocessedZip 文件 for Python 和 Matlab实验实验中以Matlab和Python(numpy)格式的预处理(减采样,EOG去除,过滤,分割等)生理数据记录

文件详细信息

online_ratings

此文件包含在在线自我评估期间收集的所有单个视频评级。该文件以 Open-Office Calc (online_ratings.ods)、Microsoft Excel (online_ratings.xls) 和逗号分隔值 (online_ratings.csv) 格式提供。

评级是使用在线自我评估工具收集的,如[1]中所述。参与者使用SAM人体模型以离散的9分制对唤醒,价和优势进行评分。此外,参与者还使用情绪轮对感受到的情绪进行评分(见[2])。

文件中的表每个评级有一行和以下列:

列名描述: __________
Online_id与video_list文件中同一列对应的视频 ID。
原子价价额定值(介于 1 和 9 之间的整数)。
觉醒唤醒评级(介于 1 和 9 之间的整数)。
优势优势评级(介于 1 和 9 之间的整数)。
Wheel_slice在情感轮上选择的切片。对于一些参与者来说,情绪轮评级没有被正确记录。在这些情况下,Wheel_slice值为 0。否则,轮子上的情绪映射到这里给出的整数是:
  1. 自豪
  2. 得意洋洋
  3. 喜悦
  4. 满意
  1. 救济
  2. 希望
  3. 利息
  4. 惊喜
  1. 悲伤
  2. 恐惧
  3. 羞耻
  4. 内疚
  1. 羡慕
  2. 厌恶
  3. 蔑视
  4. 愤怒
Wheel_strength在情感轮上选择的强度(介于 0 = 弱和 4 = 强之间的整数)。

video_list

此文件以表格形式列出在线自我评估和实验中使用的所有视频。该文件以 Open-Office Calc (video_list.ods)、Microsoft Excel (video_list.xls) 和逗号分隔值 (video_list.csv) 格式提供。

该表的每个视频有一行,包含以下列:

列名描述: __________
Online_id在线自我评估中使用的唯一 ID。
Experiment_id如果为实验选择了此视频,则会列出实验中使用的唯一 ID。如果未选中,则为空。
Lastfm_tag如果此视频是通过 last.fm 情感标签选择的,则会列出情感标签。否则为空白。
艺术家录制这首歌的艺术家。
标题歌曲的标题。
Youtube_link下载视频的原始 youtube 链接。请注意,由于版权限制,我们无法提供我们使用的视频,这些链接可能已被删除或在您所在的国家/地区不可用。
Highlight_start提取的一分钟突出显示开始的时间(以秒为单位),由 MCA 分析确定。对于某些视频,突出显示被手动覆盖(例如,当歌曲的某个部分特别知名时)。
Num_ratings在线自我评估中对此视频进行评分的志愿者人数
VAQ_Estimate实验者选择了该视频的价/唤醒象限。对于每个象限,last.fm 选择了 15 个视频,手动选择了 15 个视频。象限是:
  1. 高唤醒,高价。
  2. 低唤醒,高价。
  3. 低唤醒,低价。
  4. 高唤醒,低价。
VAQ_Online价/唤醒象限由在线自我评估中志愿者的平均评分确定。请注意,这些可能而且有时确实与估计的象限不同。
AVG_x, STD_x,Q1_x, Q2_x,
Q3_x
志愿者在在线自我评估中的平均值、标准差和评分x(价/唤醒/优势)的第一、第二和第三四分位数。

participant_ratings

此文件包含实验期间收集的所有参与者视频评分。该文件以 Open-Office Calc (participant_ratings.ods)、Microsoft Excel (participant_ratings.xls) 和逗号分隔值 (participant_ratings.csv) 格式提供。

start_time值由演示软件记录。在每次试验后,使用标准小鼠以连续的9分制直接对价,唤醒,优势和喜欢进行评级。SAM人体模型用于可视化价,唤醒和支配的评级。为了喜欢(即你有多喜欢这个视频?),使用了竖起大拇指和竖起大拇指的图标。实验结束后,以5分整数等级对熟悉度进行评分(从“以前从未听过”到“经常听”)。不幸的是,参与者 2、15 和 23 缺少熟悉度评级。

文件中的表包含每个参与者视频分级的一行和以下列:

列名列内容
Participant_id参与者的唯一 ID (1-32)。
试验试用编号(即演示顺序)。
Experiment_id与video_list文件中同一列对应的视频 ID。
Start_time试用视频播放的开始时间(以微秒为单位)(相对于实验开始时间)。
原子价价额定值(在 1 到 9 之间浮动)。
觉醒唤醒评级(浮动在 1 到 9 之间)。
优势优势评级(在 1 到 9 之间浮动)。
爱好喜欢评级(浮动在 1 到 9 之间)。
熟悉熟悉度分级(介于 1 和 5 之间的整数)。如果缺失,则为空白。

participant_questionnaire

该文件包含参与者对实验前填写的问卷的回答。该文件以 Open-Office Calc (participant_questionnaire.ods)、Microsoft Excel (participant_questionnaire.xls) 和逗号分隔值 (participant_questionnaire.csv) 格式提供。

问卷中的大多数问题都是多项选择题,几乎不言自明。不幸的是,参与者26未能填写问卷。该调查问卷还包含同意书上问题的答案(数据可以用于研究,您的图像可以发布吗?

face_video.zip

Face_video.zip包含实验中为前22名参与者录制的正面面部视频,分为试验。在 zip 文件中,s XX/sXX_trial_YY.avi对应于受试者XX 的试用 YY 视频。

对于受试者3、5、11和14,由于技术问题(即磁带用完),最后一项或几项试验缺失。请注意,这些视频按演示顺序排列,因此试用编号与video_list文件中的Experiment_id列不对应。试验编号和Experiment_id之间的映射可以在participant_ratings文件中找到。

视频是使用索尼 DCR-HC27E 摄录一体机从放置在屏幕后面的三脚架以 DV PAL 格式录制的。然后根据试验对视频进行分割,并使用h264编解码器转码为50 fps的去隔行扫描视频。转码是使用 mencoder 软件完成的,使用以下命令完成:

mencoder sXX.dv -ss trialYY_start_second -endpos 59.05 -nosound -of avi -ovc x264
  -fps 50 -vf yadif=1:1,hqdn3d -x264encopts bitrate=50:subq=5:8x8dct:frameref=2:bframes=3 
  -noskip -ofps 50 -o sXX_trialYY.avi

视频的同步精确到大约 1/25 秒(除非人为错误)。通过在实验前后显示红色屏幕以及发送到脑电图记录PC的标记来实现同步。然后在视频录制中手动标记此屏幕的起始帧。然后根据脑电图记录中的试验开始标记计算单个试验开始时间。

data_original.zip

这些是原始数据记录。有32个.bdf文件(由Actiview录音软件生成的BioSemi数据格式),每个文件有48个512Hz的录制通道(32个脑电图通道,12个外围通道,3个未使用的通道和1个状态通道)。.bdf文件可以被各种软件工具包读取,包括用于Matlab的EEGLAB和BIOSIG工具包。

数据记录在两个不同的位置。参与者1-22在特温特记录,参与者23-32在日内瓦记录。由于硬件版本不同,格式存在一些细微差异。首先,两个位置的脑电图通道顺序不同。其次,每个地点的GSR措施采用不同的格式。

下表给出了两个位置的 EEG 通道名称(根据 10/20 系统)以及可用于将一个订单转换为另一个订单的索引:

频道号中文名 特温特中文名 日内瓦日内瓦>特温特特温特>日内瓦
1哎呀哎呀11
2AF3AF322
3F7F344
4F3F733
5发展中国家中国共产党66
6中国共产党发展中国家55
7T7C388
8C3T777
9菲亚特动力科技CP51010
10CP5菲亚特动力科技99
11小七小三1212
12小三小七1111
13PzPO31614
14PO3O11315
15O1奥兹1416
16奥兹Pz1513
17O2Fp23230
18PO4AF43129
19小四Fz2931
20小八F43027
21转数快F82728
22CP2CCS2825
23C4FC22526
24T8Cz2632
25CCSC42223
26FC2T82324
27F4转数快2021
28F8CP22122
29AF4小四1819
30Fp2小八1720
31FzPO41918
32CzO22417

The remaining channel numbering is the same for both locations. However, please note the GSR measurement is in different units for the two locations. The Twente GSR measurement is skin resistance in nano-Siemens, whereas the Geneva GSR measurement is skin conductance in Ohm. The conversion is given by:

GSRGeneva = 109 / GSRTwente

The following table gives the meaning of the remaining channels:

Channel numberChannel nameChannel content
33EXG1hEOG1 (to the left of left eye)
34EXG2hEOG2 (to the right of right eye)
35EXG3vEOG1 (above right eye)
36EXG4vEOG4 (below right eye)
37EXG5zEMG1 (Zygomaticus Major, +/- 1cm from left corner of mouth)
38EXG6zEMG2 (Zygomaticus Major, +/- 1cm from zEMG1)
39EXG7tEMG1 (Trapezius, left shoulder blade)
40EXG8tEMG2 (Trapezius, +/- 1cm below tEMG1)
41GSR1Galvanic skin response, left middle and ring finger
42GSR2Unused
43Erg1Unused
44Erg2Unused
45RespRespiration belt
46PletPlethysmograph, left thumb
47TempTemperature, left pinky
48StatusStatus channel containing markers

The status channel contains markers sent from the stimuli presentation PC, indicating when trials start and end. The following status markers were employed:

Status codeEvent durationEvent Description
1 (First occurence)N/Astart of experiment (participant pressed key to start)
1 (Second occurence)120000 msstart of baseline recording
1 (Further occurences)N/Astart of a rating screen
21000 msVideo synchronization screen (before first trial, before and after break, after last trial)
35000 msFixation screen before beginning of trial
460000 msStart of music video playback
53000 msFixation screen after music video playback
7N/AEnd of experiment

data_preprocessed_matlab.zip and data_preprocessed_python.zip

These files contain a downsampled (to 128Hz), preprocessed and segmented version of the data in Matlab (data_preprocessed_matlab.zip) and pickled python/numpy (data_preprocessed_python.zip) formats. This version of the data is well-suited to those wishing to quickly test a classification or regression technique without the hassle of processing all the data first. Each zip file contains 32 .dat (python) or .mat (matlab) files, one per participant. Some sample code to load a python datafile is below:

import cPickle
x = cPickle.load(open('s01.dat', 'rb'))

Each participant file contains two arrays:

Array nameArray shapeArray contents
data40 x 40 x 8064video/trial x channel x data
labels40 x 4video/trial x label (valence, arousal, dominance, liking)

The videos are in the order of Experiment_id, so not in the order of presentation. This means the first video is the same for each participant. The following table shows the channel layout and the preprocessing performed:

Channel no.Channel contentPreprocessing
1Fp1
  1. The data was downsampled to 128Hz.
  2. EOG artefacts were removed as in [1].
  3. A bandpass frequency filter from 4.0-45.0Hz was applied.
  4. The data was averaged to the common reference.
  5. The EEG channels were reordered so that they all follow the Geneva order as above.
  6. The data was segmented into 60 second trials and a 3 second pre-trial baseline removed.
  7. The trials were reordered from presentation order to video (Experiment_id) order.
2AF3
3F3
4F7
5FC5
6FC1
7C3
8T7
9CP5
10CP1
11P3
12P7
13PO3
14O1
15Oz
16Pz
17Fp2
18AF4
19Fz
20F4
21F8
22FC6
23FC2
24Cz
25C4
26T8
27CP6
28CP2
29P4
30P8
31PO4
32O2
33hEOG (horizontal EOG, hEOG1 - hEOG2)
  1. The data was downsampled to 128Hz.
  2. The data was segmented into 60 second trials and a 3 second pre-trial baseline removed.
  3. The trials were reordered from presentation order to video (Experiment_id) order.
34vEOG (vertical EOG, vEOG1 - vEOG2)
35zEMG (Zygomaticus Major EMG, zEMG1 - zEMG2)
36tEMG (Trapezius EMG, tEMG1 - tEMG2)
37GSR (values from Twente converted to Geneva format (Ohm))
38Respiration belt
39Plethysmograph
40Temperature

references

  1. "DEAP: A Database for Emotion Analysis using Physiological Signals", S. Koelstra, C. Muehl, M. Soleymani, J.-S. Lee, A. Yazdani, T. Ebrahimi, T. Pun, A. Nijholt, I. Patras, IEEE Transactions on Affective Computing, Special Issue on Naturalistic Affect Resources for System Building and Evaluation, in press
  2. "What are emotions? And how can they be measured", K.R. Scherer, Social Science Information,vol. 44, no. 4, pp. 695-729, 2005.

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值