MIMIC-III数据集介绍

MIMIC-III数据集

这是师姐对MIMIC-III数据库介绍的笔记。

数据库介绍

在这里插入图片描述
在这里插入图片描述

  • 一个患者对应一个subject_id,但是可能多次入院,有多个hadm_id,一次入院可能有多次进入ICU,即一个hadm_id可能对应多个icustay_id
  • 通常采用一个hadm_id对应的第一个icustay_id开展相关的研究
  • 字典表用于某个项的查询,举例如下:
    比如查询某个患者的白细胞的数据(在LABEVENTS表中),首先需要找到患者对应的三个ID,然后在实验室检查编码(d_labitems)中找到白细胞的item_id,然后再去LABEVENTS表中查找.

26张表的详细解释

在这里插入图片描述

  • 这张表用主要记录患者的入院情况,用的比较多的可能有患者的人口统计学信息
  • 入院时间对我们采集特定时间窗口的患者信息是比较重要的,大多数研究都会用到.
  • 死亡时间在对应看患者结局是会用到.
  • ICUSTAY表中入科出科的时间戳也很重要;住院时长即在ICU中待的时间的长度.
  • PATIENTS表中记录着患者的信息,可以与ADMISSONS综合起来使用.比如这里的死亡日期可以对前面的表做一个补充;通过入院时间和出生日期可以计算出患者的年龄.
  • SERVICES和TRANSFERS可能在做一些资源配置的研究中会用到,做生理指标方面的研究时用得较少.
    在这里插入图片描述
  • CAREGIVERS用的相对较少
  • CHARTEVENTS是最重要的一张表,记录的大部分是患者生命体征的数据,如心率,血压,体温等等.该表是通过患者编号\病案号和ICU编号作为联合主键确定患者.项目标志符也就是item_id,比如心率这个项目所对应的项目标识符可以在d_labitems字典中查到.记录时间和存储时间是对应该项的存储时间.记录时间可以用于筛选特定的时间窗口(比如说进入ICU24小时内的数据).要用到前面的ICUSTAYS的入科时间以及当前测量的时间做差值,从而确定研究队列.
  • DATETIMEEVENTS表中主要是患者操作信息,使用相对较少.
  • 两张INPUTEVENTS应组合起来使用.提供比如说患者给药的速率(如葡萄糖输入的速率),给药途径,给药部位.基于这两个表可以做一些关于给药,药物干预方面的研究
  • NOTEEVENTS大部分是患者的医嘱,如患者的既往史和现病史等,再比如患者体温波动的情况等,都是通过文本形式给出的.
  • OUTPUTEVENTS主要记录了患者的出量信息,比如说患者的尿量等信息,可以作为患者生命情况的表示.
  • PROCEDUREEVENTS记录诸如手术开始时间,结束时间,手术操作等信息
    在这里插入图片描述
  • DIAGNOSES_ICD表中记录了患者的ICD-9诊断编码,比如说想做一些疾病诊断或疾病预测的研究时会用到.一个患者可能会对应多个诊断,所以是一个序列格式的表.可能会认为第一个是患者的主病.
  • DRGCODES表中记录了患者的诊断类别和诊断编码
  • LABEVENTS表中是患者的化验项目,有比如像白细胞,红细胞这种指标值.LABEVENTS,CHARTEVENTS和OUTPUTSEVENTS表合起来基本上可以代表患者进入ICU后生理指标的大部分特征.
  • PRESCRIPTIONS中是患者的用药记录,和前面的INPUTEVENTS综合起来可以作为用药干预的研究
  • PROCEDURE_ICD表记录的是病人的手术记录.
    在这里插入图片描述
    前面提到抽取患者的数据比如说生命体征,心率等,实验室指标(如白细胞红细胞等)等, 就需要在相应的字典中找到相应的item,即项目标识符,再对应查找某一个患者对应指标下的数据.心率,血压等指标在D_ITEMS中查找索引

数据表中的基本信息

在这里插入图片描述
在这里插入图片描述

MIMIC-III代码库

网址:https://github.com/MIT-LCP/mimic-code
https://github.com/MIT-LCP/mimic-iii-paper/
在这里插入图片描述

  • 比较常用到的有concepts文件夹中的,记录着大部分可以获得患者生命指标的SQL代码.durations是患者出入量的信息.firstday是封装好了的获取患者第一天(即前24h)的生理指标的数据.

其它临床数据集

在这里插入图片描述

研究主题

在此主要是对三届Datathon的研究题目进行总结
在这里插入图片描述
相关题目
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

研究基本流程梳理

在这里插入图片描述
师姐总结的分类任务的基本流程
在这里插入图片描述
在具体的研究工作中,通常花费最多时间的还是在数据收集和预处理的过程中,模型通常还是比较现成的.
首先是研究主题的确定,比如研究患者的死亡风险预测,那么需要选择患者结局(是否死亡,什么时间死亡等指标)等,可以通过看相关论文以及和相关医生作沟通来选择预测指标;指标确定之后,就是研究队列及指标纳入标准的确定,比如说针对脓毒症的患者,那么研究队列是脓毒症的患者;一般来说会选择不同入院(hadm_id)中的第一次进入ICU的数据;患者的某个指标的数据缺失率也应被考虑在纳入指标当中(通过设定一个缺失率阈值来判断是否使用某个指标);通常选用前24h的指标.
区间值转比如说白细胞有记录是less than 5,就可以转换成2.5或采用当作缺失值的方法.单位转换比如说INPUTEVENTS_CV和INPUT_MV中可能存在单位不一致的情况,需要按照临床上一些标准进行单位转换.
在这里插入图片描述

### MIMIC-III 数据集概述 MIMIC-III (Medical Information Mart for Intensive Care III) 是一个公开可用的大型重症监护医学数据库,包含了超过四万名住院患者的匿名健康数据[^3]。该数据集由麻省理工学院计算生理学实验室维护,并广泛应用于研究领域。 #### 主要组成部分 - **Concepts 文件夹**: 包含用于提取患者生命体征和其他重要参数的 SQL 查询脚本。这些查询可以帮助研究人员快速定位所需的具体信息。 - **Durations 表格**: 记录了每位病人在 ICU 的停留时间以及其他相关的时间间隔度量,对于分析治疗效果和病情进展非常有用。 - **Firstday 子目录**: 提供了一套预先定义好的函数来获取入院最初24小时内收集的关键生理特征,简化了初期数据分析的工作流程。 #### 使用指南 为了利用这个丰富的资源开展机器学习实验或其他形式的研究工作,可以借助 `mimic3-benchmarks` 工具包来进行准备阶段的操作。此工具允许用户轻松创建适合特定应用场景的标准测试集合[^1]: ```bash cd path/to/mimic3-benchmarks/ python setup.py install ``` 安装完成后,在命令行界面执行如下指令即可启动整个过程: ```bash python -m mimic3benchmark build_all [PATH_TO_MIMIC-III_CSVS] --output_dir ./data/root/ ``` 上述代码会读取指定路径下的原始 CSV 文件并将其转换成结构化的表格存储于目标文件夹内[^2]。 通过这种方式获得的数据集可以直接投入后续建模工作中去,极大地提高了工作效率的同时也保证了结果的一致性和可重复性。
评论 52
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值