PRETRAINING SLEEP STAGING MODELS WITHOUT PATIENT DATA阅读笔记

  • 提出了一种称为“频率预训练”的预训练任务,通过预测随机生成的合成时间序列的频率内容来预训练睡眠阶段的神经网络。
  • 实验表明,我们的方法在数据有限和科目较少的情况下超越了完全监督学习,并且在科目较多的情况下表现相当。

1 Introduction

缓解大型数据集稀缺性的努力主要遵循两条路径:

  • 开发包含反映数据内在特征的约束的网络架构,例如对称性;
  • 通过使用额外或跨域数据来学习有效先验来增强模型性能。

关于第一条路径,时间序列处理网络的一个共同特征是使用卷积层。这些层被设计成平移等变,这确保了输入中的时间位移只影响相同位移的输出。对于第二条路径,已经提出了各种策略来从数据中学习有用的先验,包括数据增强、迁移学习、自监督学习和生成对抗网络。虽然所有这些方法都被证明能够提高神经网络的性能,但它们仍然依赖于大型经验数据集进行训练。

计算机视觉的最新进展表明,完全从合成图像中学习有效先验是可能的。用于图像分类任务的合成图像是通过简单的随机过程生成的,例如迭代函数系统生成分形或随机放置几何物体以覆盖图像画布。在这些数据上预训练的深度神经网络被证明可以为图像分类任务学习有用的先验,在各种基准上产生与自然图像预训练相当的竞争性性能。这一显著的发现突出了合成数据集的潜力,合成数据集可以在没有太多计算资源的情况下生成,并且在理论上是无限量的。

受这些进展的启发,引入了一种预训练方法,该方法以生成具有特定频率内容的合成时间序列数据为中心。在预训练过程中,深度神经网络学习准确预测这些合成时间序列中存在的频率。
在这里插入图片描述

训练过程由预训练和微调阶段组成。在预训练阶段,对特征提取器f和分类器 c p c_{p} cp进行训练,检测随机生成的合成时间序列信号的频率含量(多标签分类问题)。在微调阶段,预训练的特征提取器从EEG和EOG信号的各个epoch x i x_{i} xi中提取特征。然后通过分类器 c f c_{f} cf聚合一系列epoch(训练样本)的特征来预测序列中中间epoch的睡眠阶段(多类分类问题)。

我们观察到,这个概念上简单的预训练任务,我们称之为“频率预训练”(FPT),当来自少数受试者(few-subject regime)的数据可用于微调时,与完全监督训练相比,允许深度神经网络以更好的准确性检测睡眠阶段。我们认为利用合成数据的预训练技术,就像我们提出的那样,是一个有前途的研究领域。

2 Method

合成数据。对于预训练阶段,我们定义了一个简单的随机过程来生成合成时间序列信号。每个合成信号是一个归一化的时间序列,由在100 Hz下采样的30秒正弦波和随机频率和相位组成。为了对频率进行采样,我们首先将美国睡眠医学会(AASM)推荐的用于过滤EEG和EOG信号的0.3-35 Hz的频率范围分成20个以2为基数的对数标度的桶。然后,我们随机决定每个频率仓(每个仓的概率为50%)是否用于创建合成信号。在每个选定的频率仓内,我们随机采样正弦波的最终频率。

当预训练我们的神经网络时,每个训练样本由三个合成信号组成,对应于睡眠阶段数据的三个“通道”和一个相关的标签向量。标签矢量编码的频率箱,从中正弦波的频率被绘制在一个一个热编码格式。预训练包括预测在这个标签向量中编码的所有频率箱,这使得它成为一个有20个类的多标签分类问题。我们在10万个合成样本上训练了模型。

训练设置。我们创建了四种训练配置来研究我们的预训练方法的有效性:(i)完全监督,(ii)固定特征提取器,(iii)微调特征提取器,以及(iv)未经训练的特征提取器。在完全监督配置中,我们跳过预训练步骤,使用睡眠阶段数据从头开始训练(微调)模型。在固定特征提取器配置中,我们使用合成数据对特征提取器进行预训练,然后仅使用睡眠阶段数据对分类器进行微调(即,特征提取器保持固定)。微调特征提取器配置类似于固定特征提取器配置,除了我们在预训练后对整个模型(特征提取器和分类器)进行了微调。最后,在未训练特征提取器配置中,我们使用初始化随机初始化特征提取器,然后仅使用睡眠分期数据对分类器进行微调。

3 RESULTS

预训练后对特征提取器进行微调,似乎结合了低数据区固定特征提取器配置和高数据区完全监督配置的优点。当仅使用一个主题的数据进行训练时,微调特征提取器配置获得的性能与固定特征提取器配置相似,并且优于完全监督配置。当对完整的训练数据进行微调时,微调的特征提取器配置与完全监督的配置相当,并且优于固定的特征提取器配置。总体而言,经过微调的特征提取器配置在训练数据中的所有主题上取得了与其他训练配置相似或更好的性能。

在这里插入图片描述

使用来自不同数量的受试者的数据训练的不同训练配置的平均宏观F1分数。柱状图表示每个训练配置和受试者数量在15次训练(5倍交叉验证的3次重复)中平均的宏观F1分数的平均值

  • 33
    点赞
  • 32
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值