论文题目:MtCLSS: Multi-Task Contrastive Learning for Semi-Supervised Pediatric Sleep Staging
期刊:IEEE Journal of Biomedical and Health Informatics
背景
儿童睡眠障碍的发病率和识别率的持续增加增加了对儿童睡眠自动分期的需求。然而,监督睡眠阶段识别算法经常面临挑战,如儿科睡眠医生的可用性有限和数据异质性。基于两个快速发展的领域,即半监督学习和自监督对比学习,我们提出了一种用于半监督儿童睡眠阶段识别的多任务对比学习策略,简称为MtCLSS。
具体而言,将信号自适应变换应用于整晚多导睡眠图的脑电图(EEG)记录,这有助于网络通过识别变换来提高其表示能力。
尽管先前的工作已经在自动睡眠分期方面取得了成功,但这些解决方案并没有解决以下挑战:
1)年龄对脑电图(EEG)信号有显著影响[9],因此睡眠阶段识别任务在儿童睡眠记录中往往存在数据异质性(即复杂的类内方差)。例如,儿童的脑电图显示出比成人观察到的α节律更高的振幅和更慢的主后节律。事实上,很少有自动睡眠分期研究工作专注于儿童睡眠。
2) 大多数睡眠阶段识别方法,特别是基于深度学习的方法,都依赖于大量标记的睡眠记录。这对本已稀少的儿科睡眠医生提出了更大的挑战
为了应对第二个挑战,自监督对比学习最近得到了更多的关注。图像旋转预测、拼图恢复和句子顺序预测被用作借口任务,以捕获下游任务的广义表示。然而,这种基于句子或图像的方法并没有处理数据的时间依赖性。因此,它们不能直接应用于诸如EEG信号的时间序列数据。此外,生理信号包含诸如全局结构相似性之类的特定属性,而这些属性是自然语言和图像所不具备的。
本文的主要贡献如下:
1. 在所提出的框架中,为EEG信号设计了基于时间序列数据的变换,以学习时间和结构信息。此外,我们附加了一个简单而有效的借口任务,即转换识别。通过这种方式,MtCLSS可以更好地探索未标记的信号,并提高学习表征的判别能力。
2. 监督对比损失函数用于利用儿科睡眠记录中有限的标记数据,从而使对比学习适应所提出的框架中的半监督设置。
3. 我们已经彻底评估了所提出的MtCLSS,并将其与最先进的半监督和对比学习方法进行了比较,以验证我们的框架在非常有限的标记数据场景中的有效性。
4. 据我们所知,我们是第一个通过设计统一的MtCLSS框架将对比学习纳入半监督睡眠阶段的人。此外,所提出的框架便于自适应修改和扩展
方法
图1. 用于儿童睡眠分期的MtCLSS的框架
半监督学习设置
在这项工作中,从标记和未标记的数据中检索EEG表示。EEG信号可以表示为D={Dl,Du},其中Dl={(xp,yp),(xp+1,yp+1),…,(xp,yp)}是一批标记数据,Du={xq,xq+1,…,xq}表示未标记数据。P和Q(P<<Q)分别是标记数据和未标记数据的数量。N表示整个EEG信号集的总数,P+Q=N。每个记录的xi是一个与其他时间段不相交的连续30秒的时间段。相应的标签yi代表五个睡眠阶段中的一个:清醒(W)、快速眼动阶段(REM,R)和三个非快速眼动(NREM)阶段(即N1、N2和N3)。学习目标函数以以下形式构建:
其中Ll和Lu分别是监督损失和无监督损失。ω表示控制Ll和Lu之间权重的非负参数。θ表示我们骨干网络的参数。
信号变换识别
图像变换,如旋转、翻转、去噪和着色,丰富了图像分类对比学习中的样本空间。考虑到EEG信号的结构,将这些基于图像的变换直接应用于时间序列信号是不可行的。因此,我们对原始EEG信号进行旋转、滤波、去噪和重新排序。我们还进行其他转换,如通道翻转和剪切。
Rotation:将原始脑电图信号xi旋转一段时间。设xi={xi1,xi2,…,xit},其中t=1,2,3,。。。,L代表xi的长度。然后,它被时间轴旋转,这产生x`i={xin,xin+1,…,xit,xi1,xi2,…,xin−1}。n是从(1,L])中随机选择的。因此,我们可以得到旋转信号:
Filtering:原始脑电信号xi的每个通道都经过一阶Butterworth滤波器以降低噪声,从而产生转换信号:
Noising:我们将高斯噪声添加到原始脑电信号xi的每个信道上,可以表示为
Reordering:我们将原始脑电信号xi随机分成若干段,并将其重新排序为x+i={xik1,xik2,…,xikj},可以表示为
我们在标记和未标记的数据集上执行上述变换,以获得变换后的EEG信号XT=[X-Ro,X-F,X-No,X-Re]。这样的变换不会改变信号的维度
我们还记录了信号转换的标签,以便识别转换任务。理论上,骨干网络要识别四种信号转换,就需要了解信号的潜在结构。因此,应用多任务学习策略将信号转换识别任务附加到我们的睡眠分级框架中,促使网络更好地学习EEG表示。骨干网络通过以下损失函数进行训练,以识别四个转换任务:
其中,T代表上述四个转换任务的集合。Trans(xi,T)表示对原始信号xi执行T,fθ是我们的主干网络,参数为θ。LCE表示标准交叉熵损失
对比学习策略
图2.标记和未标记数据中的正对(实线)和负对(虚线)。
原始信号X={x1,x2,x3,…,xN}通过上面介绍的变换任务进行变换,以生成N个信号对XT={(,
,
,
),··,(
,
,
,
e)},这可以使骨干网络学习更多有用的EEG表示。对于每个xi,我们测量XT的特征相似性,以找到同源对,它们被视为正对,而其他的则被视为负对。与SimCLR[25]类似,特征之间采用余弦相似性来寻找同源对,其定义为:
如图2所示,对标记数据D1和未标记数据Du应用了两种不同的策略。对于Du,我们将原始信号和相应的变换信号视为正对。我们使用以下对未标记的数据进行对比学习
其中1[k!=i]∈{0,1}是一个等于1的指示函数,如果k!=i,τ表示一个常数参数,默认设置为0.5。
我们对标记数据的正对和负对实施了监督对比学习策略。MtCLSS中的对比策略在结构上类似于用于自监督学习的SimCLR,但对监督分类进行了修改。正对来自同一类的样本和相应的变换(与仅使用单个正的自监督对比学习相反)。如图2所示的蓝色圆圈。xi和xr属于同一睡眠阶段。因此,我们将它们及其相应的变换xiT和xrT视为正对,而其他变换(绿色圆圈)视为负对。以下等式被定义为对标记数据执行对比学习
其中Ωl包含所有标记的数据及其变换。Ωi∈Ωl,Ωi中的所有数据与xi属于同一睡眠阶段。
我们提出的MtCLSS的总体损失函数遵循半监督学习的设置。有监督和无监督损失中包含的成分如图所示3。如果输入信号来自未标记集合Du,我们根据(4)在原始信号和变换信号的EEG表示之间执行对比学习。如果输入信号来自标记集D1,我们根据(5)执行对比学习,以计算预测标签和真实标签之间的标准交叉熵损失Ls。根据(2)为Du和Dl计算信号变换任务的损失Ltrans。在此基础上,形成了MtCLSS中的多任务对比学习策略
图3. 说明所提出的MtCLSS的多任务对比学习策略
骨干网络体系结构
我们的骨干网络如图1所示。原始信号和变换后的信号被馈送到共享相同网络结构的网络的两个分支中,用于通过指数移动平均进行参数更新。每个分支中包括三个相同的卷积块(Conv块),如图1所示。我们通过短时傅立叶变换(STFT)从频域中提取幅度和相位信息。得到的光谱图通过10个卷积层,ELU是这些层的激活单元。分类器由完全连接层构成。我们还采用了一个标准的2层全连接网络(以ReLU为激活单元)作为可学习的非线性投影仪,表示为g(·)。对比学习是在非线性投影之后的表示上进行的,即z=g(h),其中h代表非线性投影之前的特征图。为了避免对比损失引起的信息损失,我们将h作为分类器的输入,这将在第IV-C节中进一步讨论。训练完成后,直接转移骨干网络的权重,以识别测试集上的睡眠阶段。
实验与结果
数据集
选择两个真实世界的EEG数据集来评估所提出的MtCLSS。数据集的细节和每个睡眠阶段的比例总结在表I中
表1 有关本地和睡眠edf-20数据库的详细信息
Local dataset:本研究经重庆市第九人民医院民族委员会批准(民族批准号:2021-SCI-004),获得了儿童睡眠脑电图记录。该数据集包括63名儿科受试者的夜间PSG记录,其中部分受试者患有阻塞性睡眠呼吸暂停或注意力缺陷。他们的年龄从6.0岁到10.5岁,平均年龄为7.8岁。选择从F4-M1和O1-M2记录的EEG信号来评估所提出的方法。
SleepEDF-20 dataset:使用著名的公共数据集SleepEDF[38]来评估所提出的MtCLSS以及进行比较分析。它包含了来自20名健康受试者的41段PSG录音。选择从Fpz-Cz和Pz-Oz记录的EEG信号来评估所提出的方法
为了评估半监督学习策略,随机选择5%的数据作为标记数据,其余数据作为未标记数据。训练集(5%的标记数据和65%的未标记数据)用于学习预测模型,测试集(30%)用于评估训练模型。
实验设置
为了证明半监督儿童睡眠分期是否可以受益于多任务对比学习策略,我们在半监督设置中评估了我们的模型。选择了最近发表的几种 semi-supervised 和 contrastive 学习方法进行比较、
Semi-supervised baselines:伪标签[21]它对标记的数据进行建模,然后为每个未标记的数据生成伪标签。虚拟对抗性训练(VAT)[40]:它可以针对输入周围的局部扰动训练鲁棒模型。FixMatch[41]是一种基于伪标签的方法,其中只有当模型产生高置信度预测时才保留伪标签。
Self-supervised contrastive learning baselines::SimCLR[25]正极和负极对是从同一批中收集的,不需要内存组。MoCo[26]:它利用频繁更新的存储表来存储新的阴性样本。这种方法能够为学习视觉表示提供一个大而一致的字典。SimSiam[28]是最简单的无负样本自监督对比学习方法
为了公平比较,我们对这些基线方法实现了相同的编码器网络架构。由于两个数据集之间信号长度和结构的微小差异,学习表示的维度对于本地数据集设置为256,对于SleepEDF-20设置为128。自监督框架中的对比学习方法通常通过将学习模型视为固定特征提取器,并在一组标记数据上训练线性逻辑回归模型来评估。我们将500设置为这些对比学习方法的逻辑回归评估的最大迭代。
结果和讨论
表2 基于局部数据集的儿童睡眠分级中MTCLSS的混淆矩阵和PER-CLASS性能
表II显示了我们提出的用于儿童睡眠分期的MtCLSS的混淆矩阵和每类性能。对于每个睡眠阶段获得0.90、0.56、0.83、0.84和0.78的F1得分。R阶段容易被错误地归类为N1阶段(25.97%),N1被错误归类为R的比例达到9.05%。
这主要是由于N1期和R期表现出相似的EEG模式[42],这与医生在临床上的认识一致。MtCLSS的总体性能如表III所示
表3 .MTCLSS的性能及其竞争方法
局部和SleepEDF-20数据集上儿童睡眠分期的MtCLSS ROC曲线如图5所示。
图5 MtCLSS睡眠分期的ROC曲线
我们在图6中显示了MtCLSS和竞争方法在两个数据集上的F1得分,并在表3中显示了这些方法的其他性能指标。
我们以监督的方式(使用100%标签)训练我们的基线,并在Local和SleepEDF-20数据集上分别达到0.84和0.92的准确度。较低的kappa和F1分数表明,这些用于比较的对比学习方法在学习EEG表示方面是无效的,尽管我们已经通过使用信号变换将其应用于EEG分类任务。尽管其中一些表现出较高的准确性,但准确性本身并不是类不平衡数据集的适当评估指标。在半监督方法方面,VAT在两个数据集上都取得了良好的分类性能。当标记数据量不足时,剩下的两种半监督方法无法提取用于睡眠阶段分类的有效特征
此外,将所提出的MtCLSS的性能与SleepEDF上的一些代表性睡眠分级方法进行了比较。表4列出了这些方法的总体分类性能。所有这些方法都使用了与MtCLSS相同的数据集和通道,并且我们以最小的标签比例获得了可比较的结果。[31]表现出比MtCLSS更高的F1分数,因为他们使用了大量的EEG记录(约300k个样本)来预训练睡眠分期模型。
表4 MTCLSS与其他睡眠阶段分类方法的性能比较
Component Analysis
信号转换识别:为了进一步探索变换的影响,我们在图7中显示了不同信号变换任务的模型性能。
图7 不同信号转换成分在局部数据集上用于儿科睡眠分期的性能
不同类型的变换,包括旋转、滤波、去噪、重新排序、通道翻转和剪切(详见第III-B节),分别表示为A、B、C、D、E和F。图7中突出的是,旋转、滤波、噪声和重新排序(A、B、C、D)的组合显示出最高的准确度和F1得分,分别为0.80和0.78
我们还展示了骨干网络对四个变换任务的分类性能,准确率分别为97.23%、99.44%、96.50%和98.79%。这些结果进一步表明,我们的模型能够在信号变换识别任务中学习潜在的EEG模式。
Nonlinear projector:我们将特征图h作为分类器的输入,以避免通过非线性投影g(·)后的信息丢失。我们使用t-分布随机邻居嵌入(tSNE)来可视化从儿科睡眠记录中获得的5000维嵌入。在用h或z学习的局部数据集的嵌入中,睡眠阶段分布以可区分的方式显示在图8中。
图8 tSNE在局部数据集上对儿科睡眠分期的特征表示进行可视化,其中h在左侧可视化,z在右侧可视化。
比较这两个部分,与z相比,h表示的类更好地分离。这表明非线性投影之前的特征图具有更多的判别性分类信息,这与[25]的发现一致。
标记数据的比例:然后,我们在图9中观察到不同标签比例对模型性能的影响。其他设置保持不变,仅重新溢出训练集,使标记的训练集比例变为1%、3%、5%、8%和10%。我们使用不同的标记训练集运行MtCLSS框架,然后在图9中绘制相应的分类F1分数
图9 在局部数据集上,MtCLSS和具有不同比例标记数据的竞争方法在儿科睡眠分期中的分类F1得分
当标签不足(只有1%的标签数据)时,自监督对比学习方法(SimCLR、SimSiam)表现更好。这是由于这些模型从未标记的数据中学习广义表示的优越能力。随着可用标记数据量的增加,MtCLSS总是优于所有基线模型。例如,与需要两倍于标记数据量(10%标记数据)的最佳基线、VAT和SimCLR相比,MtCLSS实现了类似的性能(仅使用5%标记数据)
结论
在本文中,我们提出了一种基于对比学习的半监督睡眠分期方法。本研究使用了两个真实世界的EEG数据集来验证所提出的方法。
本研究表明,与现有技术的半监督和对比学习方法相比,在有限的标记数据场景中,所提出的MtCLSS具有很好的分类性能。我们应用了旋转、滤波、去噪和重新排序作为信号变换形式;然而,也可以应用其他信号转换策略来增强网络的通用性。根据AAM手册,非EEG信号适用于识别NREM睡眠