1.数据集介绍
sleep-edf(European Data Format即欧洲数据格式:一种用于交换和存储多通道生物和物理信号的简单而灵活的格式),其中Version 2的数据库包含197个整夜的PolySomnoGraphic睡眠记录,其中包含EEG,EOG,下巴EMG和事件标记。一些记录还包含呼吸和体温。训练有素的技术人员会根据Rechtschaffen和Kales手册手动对相应的睡眠多导图(睡眠模式)进行打分,这个数据的标记必须要专业的从事人员,但自己在调研AASM评分手册的时候 得到一些启发,后期可以尝试以量化的标准形成一个相对值得信赖的ground truth,可用于有监督分类。
Version1的数据集中只包含61个整晚的PSG。
2.具体元数据表示形式(微观表示)
以*PSG.edf为后缀的文件是包含EEG(来自Fpz-Cz和Pz-Oz电极位置),EOG(只有水平),下颌肌EMG和事件标记的整夜多睡眠睡眠记录。 SC* PSG.edf类型文件(请参阅“睡眠录像带研究(sleep cassette)”)通常还包含口鼻呼吸和直肠体温。
*Hypnogram.edf文件包含与PSG对应的睡眠模式的注释。这些模式(催眠图)包括睡眠阶段W,R,1、2、3、4,M(身体移动时间)和? (未评分)。所有催眠图都是由训练有素的技术人员(根据催眠图文件名中的第八个字母来区分)手动评分,但基于Fpz-Cz / Pz-Oz脑电图而不是C4-A1 / C3-A2脑电图,如[4]所建议)。
所有EDF标头字段也符合EDF +规范,并且未记录的信号已从ST*PSG.edf文件中删除。
3. 数据集中包含的实验(宏观表示)
3.1 睡眠盒式磁带研究和数据
顾名思义,是利用便携式的记录仪将数据存储在磁带中的方式采集。153个SC *文件(SC =睡眠盒式磁带)是在1987-1991年的一项研究中对年龄在25-101岁的健康白人中对睡眠的影响进行研究而获得的,没有任何与睡眠有关的药物。随后在受试者住所的两个日夜时段记录了两个大约20小时的PSG。受试者继续正常活动,但佩戴了鲍勃(Bob)1987年论文[7]第VI.4章(第92页)中所述的类似Walkman的盒式磁带录音机。
文件以SC4ssNEO-PSG.edf的形式命名,其中ss是主题编号,N是夜晚。被试36和52的头一个晚上以及被试13的第二个晚上由于盒式磁带故障而丢失。
EOG和EEG信号均以100 Hz采样。对脑膜下EMG信号进行电子高通滤波,整流和低通滤波,然后以uV rms(均方根)表示的所得EMG包络以1Hz采样。鼻腔气流,直肠体温和事件标记也以1Hz采样。
具体信息在文件头与SC-subjects.xls进一步描述了相关主题和记录。
3.2 睡眠遥测研究和数据
相比上面,遥测是指 利用射频发射的记录仪,将采集到的信号实时发射到计算机上的采集方式。在1994年替马西泮(一种安定药)22名白人男性和女性的睡眠影响进行的一项研究中,获得了44个ST *文件(ST =睡眠遥测),而没有其他药物。受试者入睡时轻度困难,但其他方面健康。在医院的两个晚上记录了大约9个小时的PSG,其中一个在服用替马西泮后,另一个在服用安慰剂后。受试者佩戴了微型遥测系统,该系统具有很好的信号质量。
文件以ST7ssNJ0-PSG.edf的形式命名,其中ss是主题编号,N是夜晚。
EOG,EMG和EEG信号以100 Hz采样,事件标记为1 Hz。物理标记尺寸ID + ME与以下事实有关:按下标记(M)按钮会产生相对于基线值的两秒偏移,该基线值标识遥测单位(如果为正,则ID = 1或2)或标记为错误(E)在遥测链接中是否为负。在文件头与描述性电子表格ST-subjects.xls中有详细的描述。
4. 获取方式
1)在终端使用wget获得:wget -r -N -c -np https://physionet.org/files/sleep-edfx/1.0.0/
2)使用Google Cloud命令行工具访问数据(请参阅gsutil文档以获取指导):gsutil -m -u YOUR_PROJECT_ID cp -r gs://sleep-edfx-1.0.0.physionet.org DESTINATION
3)在网站直接结尾下载,网站还提供了相应的google云下载链接,网站如下: Sleep-EDF Database Expanded v1.0.0