在DIAGNOSES_ICD表一文中我以未提及并发症的II型糖尿病患者为例子,介绍了如何开始MIMIC研究。在NOTEEVENTS表一文中我介绍了患者的医生记录信息,即病历。在这篇文章中,我将两者进行结合做一个简单的实验来阐释如何使用病历进行相关文本挖掘工作。
即利用Python展示未提及的II型糖尿病患者病例的词云。
所谓”词云”对文本中出现频率较高的“关键词”予以视觉上的突出,形成“关键词云层”或“关键词渲染”,从而过滤掉大量的文本信息,使读者只要一眼扫过文本就可以领略文本的主旨[1]。
未提及的II型糖尿病患者病例的词云如下图所示:
从图中可以看出除了tablet,patients等词外,还出现了hgb,value,mcv等词,这可能是出院病历中医生最想要着重强调的词语。