Multi-view Integration Learning for Irregularly-sampled Clinical Time Series
介绍
问题
电子健康记录(EHR)数据==稀疏且不规则==,因为它以不规则的时间间隔记录,并且在每个观察点测量不同的临床变量。不同数量的观察值和跨数据的时间对齐方式的缺乏使假定具有固定维特征空间的机器学习模型的使用无效。
研究进展
研究背景:基于RNN的方法已成为处理临床时间序列数据的实际解决方案,因为RNN可以管理各种长度的顺序数据。但是传统的RNN方法被设计为以连续时间序列之间的恒定时间间隔处理数据,从而导致针对不规则时间间隔的次优性能。为了应对这一挑战,广泛使用的方法是将不定期采样的时间序列数据转换为定期采样的时间序列,即时间离散,并将此固定维向量馈入RNN。但是,它需要对窗口大小和聚合函数进行临时选择,以处理属于同一窗口内的值。类似于离散化方法,插值方法要求指定离散的参考时间点。代替使用输入中所有可用的观测值来替换这些时间点的内插值,由于假定固定的时间间隔,它可能不可避免地引入额外的噪声或信息损失。处理不规则时间序列的更好方法是直接对不等间隔的原始数据进行建模。与依赖于离散时间的常规RNN相比,基于普通微分方程(ODE)的递归模型以处理非均匀时间间隔,并消除了通过归纳将观测值聚合为等距间隔的需求ODE将RNN中的隐藏状态转换为连续时间动态。另一种选择是利用缺失的来源,例如缺失指标和时间间隔,以对信息缺失模式进行建模。使用丢失的指标或时间间隔,并应用启发式衰减函数(例如单调非增大函数),而无需学习表示缺失值。最近,基于注意力的方法已用于处理不规则采样。尤其是,自我注意模型由于具有完全并行的序列处理能力,因此具有优于RNN的计算优势。一些基于自我注意机制的文章已经应用了一种简单的修改过的自注意方法,例如被掩盖的注意,或将位置编码替换为时间编码,级联编码矢量和缺失指标。
本文解决方案
本文提出了一种新方法,该方法可以通过无归责的自我注意机制,从不规则的多元时间序列数据中共同学习多视图特征的深度表示。具体来说,我们设计了一种新颖的多视图整合关注模块(MIAM),通过整合缺失指标和时间间隔来学习复杂的缺失模式,并通过一系列自我关注模块在表示空间中进一步组合观察与缺失模式。在MIAM模块的顶部,我们构建了一个基于注意力的解码器,作为缺失的数据推动者,有助于为预测任务(仅在训练阶段)进行多视图观测之间的相互关系的表示学习。结果,降低了模型的复杂性,同时消除了同时估算缺失数据的需要。我们表明,我们提出的方法在现实的EHR数据集:MICIC-III和PhysioNet 2012挑战数据集上,胜过了最新的院内死亡率预测方法。
相关工作
针对以下3个部分,文章中各提出了一些前人的解决方案,可以对比学习
-
Irregular Time Series Modeling 不规则时间序列建模
-
Missing Patterns Modeling 缺失模式建模
-
**Attention Mechanism in Irregular Time Series Modeling ** 不规则时间序列建模中的注意机制
方法
我们提出用于医院死亡率预测任务的不规则多元EHR时间序列的多视图特征集成学习的方法。首先,我们介绍多元时间序列数据的符号,然后描述我们提出的方法,该方法包括(i)输入和时间嵌入,(ii)多视图集成学习(iii)二元分类的死亡率预测,以及( iv)用于掩盖的丢失数据的辅助插补。
Data Representation![在这里插入图片描述](https://i-blog.csdnimg.cn/blog_migrate/0aad4342a56a6733e7aa841c9abc7923.jpeg)
Multi-view Integration Learning
缺失数据的关键特征是缺失本身可能会传达信息,而忽略这种依赖性可能导致错误的预测。现有作品利用了这些缺失的来源,即缺失的指标和时间间隔,并在不了解其表示的情况下将启发式衰减函数用于其使用。但是,对缺失使用不合适的建模可能会导致对特征重要性和对测量变化不可靠的模型进行不可靠的评估
出于这一观察的动机,在这项工作中,我们通过有效利用缺失的指标和时间间隔来学习不规则时间序列数据的深入表示。我们认为这些缺失源是人类的知识,例如在不同情况下应该测量什么以及何时测量,这些在数据中间接表示。在这种情况下,我们将缺失指标和时间间隔的表示视为不规则采样观测的多视图特征。具体而言,我们提出了一种多视图特征集成学习方法,用于对多视图观察之间的相互关系建模。这是通过使用自我注意机制来实现的,在这种机制中,表示的内积常常反映出诸如相似性之类的关系。
Input and Time Embedding
采用时间嵌入作为位置编码的一种变体,将连续的时间值作为输入,并将其转换转换为编码向量表示形式这种方法通过考虑确切的时间点及其时间间隔来处理不规则采样的时间序列
T E ( t , 2 d ) = sin ( t / l max 2 d / d model ) T E ( t , 2 d + 1 ) = cos ( t / l max 2 d / d model ) \begin{aligned} \mathrm{TE}_{(t, 2 d)} &=\sin \left(t / l_{\max }^{2 d / d_{\text {model }}}\right) \\ \mathrm{TE}_{(t, 2 d+1)} &=\cos \left(t / l_{\max }^{2 d / d_{\text {model }}}\right) \end{aligned} TE(t,2d)TE(t,2d+1)=sin(t/lmax2d/dmodel )=cos(t/lmax2d/dmodel )
Self-attention
基本构件是基于多头自注意力机制(MHA)的,其中根据一组查询(Q),键(K)和值(V)计算按比例缩放的点积: α ( Q , K , V ) = σ ( Q K ⊤