本文主要是解决电子病例的问题。电子病历通常是一个纵向的自然的医疗事件的序列(包括医疗笔记、用药、症状以及实验报告等)所以纵向和异质性质使EHR分析成为一个困难挑战。为了应对这一挑战,在本文中,为这样的事件序列开发了一种新颖的表示——时序图。 时序图可用于各种具有挑战性的分析任务,例如预测建模,因为它可以捕获每个事件序列中医学事件的时间关系。 通过总结纵向数据,时间图足够robust,能抵抗噪声和不规律等观察。 基于时间图表示,还进一步开发了一种时序表现型,以确定最重要和可解释的图表基础作为表型。 这有助于我们更好地了解疾病演变模式。此外,通过表达具有表现型的时序图,表达系数可以用于诸如个性化医疗,疾病诊断和患者分割的应用。
直接分析EHR有如稀疏性,嘈杂性,异构性,偏见性等困难,所以需要在实际应用前去做 “电子表型”,其基础是一个特征提取过程,将原始EHR数据转换为临床相关的特征。但是传统对于时序表型的识别都是基于序列模式挖掘或者时序抽象,会带来表型爆炸的问题,在不合适的阈值下可能会通过EHR识别产生太多的表型,如果通过控制阈值来解决,那么产生的表型都非常的细碎。
核心问题就是EHR太复杂多变,所以采用传统放大得到的时序模式太多,所以本文提出用图来表示EHR。
- 图的节点是医疗事件
- 图的边表达了两个节点医疗事件之间的时序关系(从当前事件指向下一个在其后发生的事件)
- 权重反映了EHR中两个医疗事件之间的平均持续时间
图的优点:
- 这种时间图更紧凑,这使得后续的表型分析过程序更高效。
- 使用图形表示,检测到的表型是子图而不是子序列。 每个子图是一组子序列的自然聚合。 这有效地缓解了模式爆炸问题,同时保留了挖掘得到的表型的可解释性
- 框架是灵活的,无监督、半监督情况下都ok
- 框架在两个临床情景下在真实世界的EHR数据仓库中得到验证。 一种是早期发现充血性心力衰竭(CHF),另一个是CHF患者慢性阻塞性肺病(COPD)前病症的再入院预测。
时序图表示:
时间数据可以分类为连续的或离散的。对于连续时间数据的知识表示,最常用的方法之一是将多变量连续时间序列转换为离散的符号表示。本文提出的时序图提供了一种表示离散时间数据中存在的时间知识的替代方法。时序图以更紧凑的方式捕获隐藏在序列中的时间结构,其中图中的节点是EHR中的事件,并且有向边编码成对事件之间的时间关系。在时间图中,患者EHR中缺失的事件将不会出现,并且具有相同排序的重复成对事件将仅出现一次。通过这种表示,时间图是稳健的,可以抵抗稀疏,嘈杂和不规则的观察。此外,这种表示非常直观且高度可解释,因为人们可以很容易地理解患者EHR中不同医疗事件之间的时间关系。另一个优点是,基于图形的表示,检测到的表型(或模式)也将以图形的形式存在,这可以被视为序列模式的自然聚合。这样,我们就可以有效地缓解模式爆炸问题。
3.1时序图构造:
有一组事件序列{:n=1...N},N是所有的序列数量。对每一个事件序列 = , Ln是事件序列的长度。
比如:观察到事件在时刻。对所有的序列,如果p<q,那么一定有.
其中k是一个非递减函数。
如果两个事件之间的时间间隔>∆,k就为0。
3.2时序表型
思想是从构造得到的时序图中发掘“图基”,也就是一些小的子图,那么再以后的过程中,一些观察到的图就可以看作是几个图基的组合。如下:
把得到的图基叫做时序表型,因为图基是从时序图中发掘的,所以在挖掘过程中就包括了隐藏在事件序列中的健康状况。
假设每一个事件序列都对应生成了一个时序图,邻接矩阵是.假设有K个图基.那么邻接矩阵可以表示如下:
其中A 是重构系数矩阵。. (没看懂为什么 N*K的矩阵怎么和M*M的矩阵相乘呢)
然后最小化重构误差:
为了使得结果的可解释性更强,引入了两个限制:
- 对于所有的k,均有
- (使得A是合理的多项分布)
3.3 正则化
lambda >= 0
3.3.1 基于相似度的正则化
认为有关联的病人会有相似的表型,
S是一个对称矩阵,数值是相似性的信息
3.2.2 基于相似度的正则化
利用Yn来标记 第n个病人是否属于 病例组。病人在病例组中,则Yn=1,在对照组中Yn=-1。
H是一个线性模型:
所以最终有:
除了log-loss意外,还可以有其他的损失函数:,