论文笔记整理:吴锐,东南大学硕士。
来源:SIAM ICDM 2020
论文下载地址:
https://epubs.siam.org/doi/abs/10.1137/1.9781611976236.3
动机
基于电子病历(EHR,Electronic Health Records)对患者未来的健康状态进行预测是一个重要的研究课题。由于EHR数据的时序性质,该任务的主要挑战在于如何正确对患者的访问序列进行建模。RNN结合attention机制已经被广泛用于解决该问题,但该方法常常会受到数据量不足的影响。例如,对于一些罕见的疾病,在数据中所出现的次数往往会很少,甚至是个位数,这对深度学习模型的学习非常不利。对此,一些学者提出了引入了医疗知识(例如医学知识图谱)作为指导的模型进行预测,从而解决该问题。这些模型虽然能够为医学变量(例如不同的疾病)学习到加入了知识的、合理的embedding,但是它们只能够部分地利用知识图谱中存在的信息,而无法充分获取其图结构的特征。这些图结构信息可能会有助于提升模型的预测效果。
贡献
为了解决这个问题,作者提出了一种端到端的、鲁棒的解决方法,称之为基于图神经网络的诊断预测(GNDP,Graph Neural Networks based Diagnosis Prediction)。该方法能够从患者的序列图中学习到空间上以及时间上的pattern,并且这些pattern自然地融入了领域知识。其基本思想在于,根据医学本体中的层级结构与关系,来构建图形式的EHR数据。
图1
数据的原本形式如图1