以色列MIMIC(Medical Information Mart for Intensive Care)数据库简介

一 、MIMIC简介

MIMIC(Medical Information Mart for Intensive Care),是一个大型的公开数据库。该数据库记录了2001年至2019年期间贝斯以色列女狄肯斯医疗中心重症监护病房患者的相关数据,拥有4万多名患者的医疗健康数据和记录。

MIMIC数据库记录了人口统计学信息,如病人的性别、身高、宗教等情况。记录了实验室检验信息,如血常规,肝功能,肾功能等实验室检测数据。记录了患者的用药信息,如高血压患者服用了治疗高血压类药物等。记录了护理人员以及患者的护理级别等。记录了患者的检测成像报告,如胸X光片。记录了患者每次出入院信息,每次入院接受的单位以及主治医生、护士出具的护理记录和病例分析距离等海量数据。

MIMIC数据库中包含了多种类型ICU(外科监护室、内科监护室、创伤外科监护室、新生儿监护室、心脏病监护室、心外恢复监护室)。MIMIC-Ⅲ数据集主要包括波形数据集(病人的生命体征趋势图)和临床数据集,按照记录内容的不同,共包含以下21个数据表:住院表、出院表、当前使用医疗服务记录表(CPT)、日期型事件表、医务人员表、监测情况表、ICD病情确诊表、诊断相关组编码表(DRG)、ICU记录表、注射记录表(CV)、注射记录表(MV)、排泄记录表、化验记录表、微生物检测记录表、文本报告记录表、病人登记表、处方信息表、过程事件表(MV)、ICD手术记录表、服务表、病房转移表。同时,数据集中还包含了5个辅助表用来辅助查找:目前使用医疗服务术语表、ICD病情确诊词典表、ICD医疗过程词典表、ICU化验词典表、门诊化验词典表。在对26个数据表的内容充分了解后,按照各个表的内容相关程度可分为四类,分别是病人基本信息及转移信息表、病人医院门诊的治疗相关信息表、病人在ICU里的治疗相关信息表和辅助信息表。下面分别介绍数据表的主要内容和利用该数据表进行的相关研究。

二、版本介绍

MIMIC从开发至今,共存在三个大版本:MIMIC-II,MIMIC-III,MIMIC-IV。
MIMIC文档链接
https://mimic.mit.edu/docs/gettingstarted/
在这里插入图片描述

  1. MIMIC-II
    MIMIC-II包含2001-2008年的数据。数据是主要从CareVue监视器收集的。MIMIC-II现在已不再公开,但如果想要提取数据,可以从MIMIC-III中获取数据,利用筛选数据库来源为CareVue来提取MIMIC-II的数据(对此有疑问的可以关注后续文章,会有说明)。

  2. MIMIC-III
    MIMIC-III包含2001-2012年的数据。患者数据是从Metavision和CareVue两个地方采集的。MIMIC-III 数据库当前最新版本是v1.4。这个版本是在2016年9月2日发布,此次发布提高了数据库中的数据质量,为Metavision数据库中的病人提供了大量的补充数据。MIMIC-III v1.4从2016年至今,未再进一步的修正,这也是MIMIC-III 数据库的最终版本。

  3. MIMIC-IV
    MIMIC-IV包含2008-2019年的数据。全部数据是来自Metavision,注意在IV版本中,已不含CareVue采集的数据了。因为MIMIC-IV目前还在开发完善中,因此在本人进行医学数据研究过程中,基于的是MIMIC-III v1.4版本。所以后期所有介绍,也都是基于MIMIC-III v1.4版本来的

三、后期工作

MIMIC-III一共包含26张数据表,各个数据表之间相互关联,因此提取自己研究课题相关数据极其繁琐,必须对MIMIC-III数据表有一个较深层次的理解,本人对MIMIC-III数据库研究了将近一个月,才提取到相关研究数据。

如果有论文机器学习建模复现问题,可与我留言。

论文复现机器学习模型案例大本营(收藏)

字典信息辅助表

字典信息数据,共包含5个数据表。抽取患者的数据比如说生命体征,心率等,实验室指标(如白细胞红细胞等)等, 需要在相应的字典中找到相应的item,即项目标识符,再对应查找某一个患者对应指标下的数据。
D_CPT(目前使用医疗服务术语表)
Name Postgres data type 说明
ROW_ID INT 行号
CATEGORY SMALLINT CPT code 类别号
SECTIONRANGE VARCHAR(100) 给定的代码范围
SECTIONHEADER VARCHAR(50) 给定的代码说明
SUBSECTIONRANGE VARCHAR(100) 对给定子部分的代码范围
SUBSECTIONHEADER VARCHAR(300) 对给定子部分的描述
CODESUFFIX VARCHAR(5) 当CPT_CD包含非数字字符时,CPT_SUFFIX列包含文本后缀
MINCODEINSUBSECTION INT SUBSECTIONRANGE 的最小值
MAXCODEINSUBSECTION INT SUBSECTIONRANGE 的最大值
D_ICD_DIAGNOSES (ICD病情确诊词典表)
Name Postgres data type 说明
ROW_ID INT -
ICD9_CODE VARCHAR(10) ICD-9 编码
SHORT_TITLE VARCHAR(50) 缩写(对给定代码的简单描述)
LONG_TITLE VARCHAR(300) 全称
D_ICD_PROCEDURES (ICD医疗过程词典表)
Name Postgres data type 说明
ROW_ID INT -
ICD9_CODE VARCHAR(10) ICD-9 编码
SHORT_TITLE VARCHAR(50) 缩写
LONG_TITLE VARCHAR(300) 全称
D_ITEMS(ICU化验词典表)
Name Postgres data type 说明
ROW_ID INT -
ITEMID INT 项目标识符
LABEL VARCHAR(200) 项目标签
ABBREVIATION VARCHAR(100) 标签缩写
DBSOURCE VARCHAR(20) 数据来源
LINKSTO VARCHAR(50) 对应的数据表
CATEGORY VARCHAR(100) 项目种类
UNITNAME VARCHAR(100) 项目测量单位
PARAM_TYPE VARCHAR(30) 记录数据的类型 a date, a number, a text field
CONCEPTID INT 未知,数据表中该列全为空
D_LABITEMS(门诊化验词典表)
Name Postgres data type 说明
ROW_ID INT -
ITEMID INT 实验室检测项目的ITEMID
LABEL VARCHAR(100) 项目标签
FLUID VARCHAR(100) 测量的物质 ‘blood’ ‘urine’
CATEGORY VARCHAR(100) 测量的种类
LOINC_CODE VARCHAR(100) LOINC_CODE包含与给定ITEMID关联的LOINC代码。 LOINC是一种本体,最初指定了实验室测量,但后来扩展到涵盖了广泛的临床相关概念。 LOINC公开提供一个表,其中包含有关每个LOINC代码的大量详细信息。 该表可在线免费获取,也可由数据库的监护人提供
5.2. 病人基本信息及转移信息表
PATIENTS(病人登记表)
Name Postgres data type 说明
ROW_ID INT -
SUBJECT_ID INT 患者编号
GENDER VARCHAR(5) 性别
DOB TIMESTAMP(0) 出生日期
DOD TIMESTAMP(0) 死亡日期
DOD_HOSP TIMESTAMP(0) 院内登记死亡日期
DOD_SSN TIMESTAMP(0) 社保局登记死亡日期
EXPIRE_FLAG VARCHAR(5) 死亡标记
ADMISSIONS(住院表)
Name Postgres data type 说明
ROW_ID INT 行号
SUBJECT_ID INT 患者编号
HADM_ID INT 病案号
ADMITTIME TIMESTAMP(0) 入院时间
DISCHTIME TIMESTAMP(0) 出院时间
DEATHTIME TIMESTAMP(0) 死亡时间
ADMISSION_TYPE VARCHAR(50) 入院类型
ADMISSION_LOCATION VARCHAR(50) 入院地点
DISCHARGE_LOCATION VARCHAR(50) 出院地点
INSURANCE VARCHAR(255) 保险类型
LANGUAGE VARCHAR(10) 语种
RELIGION VARCHAR(50) 宗教信仰
MARITAL_STATUS VARCHAR(50) 婚姻状况
ETHNICITY VARCHAR(200) 种族
EDREGTIME TIMESTAMP(0) 急诊留观登记时间
EDOUTTIME TIMESTAMP(0) 急诊留观出观时间
DIAGNOSIS VARCHAR(300) 初步诊断
HOSPITAL_EXPIRE_FLAG TINYINT 院内死亡标记
HAS_CHARTEVENTS_DATA TINYINT 是否有chartevents记录
CALLOUT(出院表)
Name Postgres data type 说明
ROW_ID INT 行号
SUBJECT_ID INT 患者编号
HADM_ID INT 病案号
SUBMIT_WARDID INT 提交申请的科室代码
SUBMIT_CAREUNIT VARCHAR(15) 提交申请的科室所属的ICU cost类型
CURR_WARDID INT 患者所属科室
CURR_CAREUNIT VARCHAR(15) 患者所属的ICU cost类型
CALLOUT_WARDID INT 申请转移的地方 0 代表 Home / 1 代表转移到可用的的病房
CALLOUT_SERVICE VARCHAR(10) 患者需接受的治疗服务
REQUEST_TELE SMALLINT 预防患者已经感染的疾病
REQUEST_RESP SMALLINT 预防患者已经感染的疾病
REQUEST_CDIFF SMALLINT 预防患者已经感染的疾病
REQUEST_MRSA SMALLINT 预防患者已经感染的疾病
REQUEST_VRE SMALLINT 预防患者已经感染的疾病
CALLOUT_STATUS VARCHAR(20) 申请的状态
CALLOUT_OUTCOME VARCHAR(20) ‘Discharged’ or ‘Cancelled’
DISCHARGE_WARDID INT 实际转移的地方 0 代表 Home / 1 代表转移到可用的的病房
ACKNOWLEDGE_STATUS VARCHAR(20) 申请的反馈结果状态 ‘Acknowledged’, ‘Revised’, ‘Unacknowledged’ or ‘Reactivated’
CREATETIME TIMESTAMP(0) 申请创建时间
UPDATETIME TIMESTAMP(0) 更新时间
ACKNOWLEDGETIME TIMESTAMP(0) 反馈时间
OUTCOMETIME TIMESTAMP(0) callout完成时间
FIRSTRESERVATIONTIME TIMESTAMP(0) 首次病房保留时间
CURRENTRESERVATIONTIME TIMESTAMP(0) 当前病房保留时间
ICUSTAYS(ICU记录表)
Name Postgres data type 说明
ROW_ID INT -
SUBJECT_ID INT 指定患者的标识符
HADM_ID INT 对于患者而言HADM_ID是唯一的
ICUSTAY_ID INT ICU病案号(对于患者住院而言ICUSTAY_ID是唯一的)
DBSOURCE VARCHAR(20) 来源数据库 ‘carevue’ ‘metavision’ 在某些地方处理上有所不同
FIRST_CAREUNIT VARCHAR(20) 患者入住监护室24小时内的首个ICU监护室种类
LAST_CAREUNIT VARCHAR(20) 患者入住监护室24小时内的最终ICU监护室种类
FIRST_WARDID SMALLINT 第一个监护室编号
LAST_WARDID SMALLINT 最后一个监护室编号
INTIME TIMESTAMP(0) 入科时间
OUTTIME TIMESTAMP(0) 出科时间
LOS DOUBLE 入住时长 可能包括单个或多个ICU单位
TRANSFERS(病房转移表)
Name Postgres data type 说明
ROW_ID INT -
SUBJECT_ID INT -
HADM_ID INT -
ICUSTAY_ID INT -
DBSOURCE VARCHAR(20) 数据来源 ‘carevue’ ‘metavision’
EVENTTYPE VARCHAR(20) 转移的类型 ‘admit’ ‘transfer’ ‘discharge’
PREV_CAREUNIT VARCHAR(20) 前次所在监护室
CURR_CAREUNIT VARCHAR(20) 当前所在监护室
PREV_WARDID SMALLINT 前次所在科室代码
CURR_WARDID SMALLINT 当前所在科室代码
INTIME TIMESTAMP(0) 入科时间
OUTTIME TIMESTAMP(0) 出科时间
LOS INT 住院时长
SERVICES(服务表)
ROW_ID INT -
SUBJECT_ID INT -
HADM_ID INT -
TRANSFERTIME TIMESTAMP(0) 服务种类更改时间
PREV_SERVICE VARCHAR(20) 前次服务种类
CURR_SERVICE VARCHAR(20) 当前服务种类

服务的名称缩写及其详细说明:
Service Description
CMED Cardiac Medical - for non-surgical cardiac related admissions
CSURG Cardiac Surgery - for surgical cardiac admissions
DENT Dental - for dental/jaw related admissions
ENT Ear, nose, and throat - conditions primarily affecting these areas
GU Genitourinary - reproductive organs/urinary system
GYN Gynecological - female reproductive systems and breasts
MED Medical - general service for internal medicine
NB Newborn - infants born at the hospital
NBB Newborn baby - infants born at the hospital
NMED Neurologic Medical - non-surgical, relating to the brain
NSURG Neurologic Surgical - surgical, relating to the brain
OBS Obstetrics - concerned with childbirth and the care of women giving birth
ORTHO Orthopaedic - surgical, relating to the musculoskeletal system
OMED Orthopaedic medicine - non-surgical, relating to musculoskeletal system
PSURG Plastic - restortation/reconstruction of the human body (including cosmetic or aesthetic)
PSYCH Psychiatric - mental disorders relating to mood, behavior, cognition, or perceptions
SURG Surgical - general surgical service not classified elsewhere
TRAUM Trauma - injury or damage caused by physical harm from an external source
TSURG Thoracic Surgical - surgery on the thorax, located between the neck and the abdomen
VSURG Vascular Surgical - surgery relating to the circulatory system
5.3病人医院门诊治疗的相关信息表
CPTEVENTS(当前使用医疗服务记录表)

记录程序操作是对哪位患者收费,便于知道某种操作是否执行
Name Postgres data type 说明
ROW_ID INT 行号
SUBJECT_ID INT 患者编号
HADM_ID INT 病案号
COSTCENTER VARCHAR(10) 操作部门
CHARTDATE TIMESTAMP(0) 操作时间
CPT_CD VARCHAR(10) 操作的原始编码code
CPT_NUMBER INT CPT_CD 的数字信息
CPT_SUFFIX VARCHAR(5) CPT_CD 的文本后缀
TICKET_ID_SEQ INT CPT_CD 的顺序
SECTIONHEADER VARCHAR(50) CPT_CD 的种类
SUBSECTIONHEADER VARCHAR(300) CPT_CD 的种类
DESCRIPTION VARCHAR(200) CPT_CD 的详细信息
DIAGNOSES_ICD(诊断信息表)
Name PostgreSQL data type Modifiers 说明
ROW_ID INT not null -
SUBJECT_ID INT not null -
HADM_ID INT not null -
SEQ_NUM INT ICD诊断顺序
ICD9_CODE VARCHAR(10) 实际编码IDC-9

DRGCODES(诊断相关组编码表)
Name PostgreSQL data type 说明
ROW_ID INT -
SUBJECT_ID INT -
HADM_ID INT -
DRG_TYPE VARCHAR(20) 诊断类别
DRG_CODE VARCHAR(20) 诊断编码
DESCRIPTION VARCHAR(300) 详细描述
DRG_SEVERITY SMALLINT 严重程度
DRG_MORTALITY SMALLINT 死亡率
LABEVENTS(门诊实验室检查记录表)
Name Postgres data type 说明
ROW_ID INT -
SUBJECT_ID INT -
HADM_ID INT -
ITEMID INT 项目标识符
CHARTTIME TIMESTAMP(0) 测量时间
VALUE VARCHAR(200) 测量项目
VALUENUM DOUBLE PRECISION 测量数值数据
VALUEUOM VARCHAR(20) 测量单位
FLAG VARCHAR(20) 测量值是否异常
MICROBIOLOGYEVENTS(微生物实验室检测记录表)

患者标本微生物病原体检测结果,包括采集的培养物和相关敏感性
Name Postgres data type 说明
ROW_ID INT -
SUBJECT_ID INT -
HADM_ID INT -
CHARTDATE TIMESTAMP(0) 记录日期
CHARTTIME TIMESTAMP(0) 记录时间
SPEC_ITEMID INT 化验项目标识符
SPEC_TYPE_DESC VARCHAR(100) 化验类型 血液 尿液 痰
ORG_ITEMID INT 生成的有机物标识符
ORG_NAME VARCHAR(100) 有机物名称
ISOLATE_NUM SMALLINT 分离菌落数目
AB_ITEMID INT 抗生素敏感性测试标识符
AB_NAME VARCHAR(30) 抗生素名称
DILUTION_TEXT VARCHAR(10) 测试抗生素敏感性
DILUTION_COMPARISON VARCHAR(20) -
DILUTION_VALUE DOUBLE PRECISION 测试抗生素敏感性时的稀释值
INTERPRETATION VARCHAR(5) 解释抗生素的敏感性和试验结果 “S”是敏感的,“R”是抗性的,“I”是中间的,“P”是待定的
PRESCRIPTIONS(处方信息表)
Name Postgres data type 说明
ROW_ID INT -
SUBJECT_ID INT -
HADM_ID INT -
ICUSTAY_ID INT -
STARTDATE TIMESTAMP(0) 用药开始时间
ENDDATE TIMESTAMP(0) 用药结束时间
DRUG_TYPE VARCHAR(100) 药物类型
DRUG VARCHAR(100) 药物名称
DRUG_NAME_POE VARCHAR(100) 药物说明
DRUG_NAME_GENERIC VARCHAR(100) 药物说明
FORMULARY_DRUG_CD VARCHAR(120) 处方药代码
GSN VARCHAR(200) 通用序列号
NDC VARCHAR(120) 国家药品编码
PROD_STRENGTH VARCHAR(120) -
DOSE_VAL_RX VARCHAR(120) -
DOSE_UNIT_RX VARCHAR(120) -
FORM_VAL_DISP VARCHAR(120) -
FORM_UNIT_DISP VARCHAR(120) -
ROUTE VARCHAR(120) -

PROD_STRENGTH

DOSE_VAL_RX, DOSE_UNIT_RX

FORM_VAL_DISP, FORM_UNIT_DISP

ROUTE

The route prescribed for the drug.

为该药开出的途径
5. 4病人在ICU里的治疗相关信息表
CAREGIVERS(医务人员信息表)
Name Postgres data type 说明
ROW_ID INT 行号
CGID INT 护理人员标志符
LABEL VARCHAR(15) 护理人员的头衔 RN, MD, PharmD
DESCRIPTION VARCHAR(30) 护理人员的结构化数据信息 17 unique values
CHARTEVRNTS(化验记录表)
Name Postgres data type In CareVue In Metavision 说明
ROW_ID INT Y Y 行号
SUBJECT_ID NUMBER(7,0) Y Y 患者编号
HADM_ID NUMBER(7,0) Y Y 病案号
ICUSTAY_ID NUMBER(7,0) Y Y ICU病案号
ITEMID NUMBER(7,0) Y Y 项目标识符
CHARTTIME DATE Y Y 记录时间
STORETIME DATE Y Y 存储时间
CGID NUMBER(7,0) Y Y 护理人员标识符
VALUE VARCHAR2(200 BYTE) Y Y 项目测量的值
VALUENUM NUMBER Y Y 项目测量的数字信息
VALUEUOM VARCHAR2(20 BYTE) Y Y 项目测量的值对应的单位
WARNING NUMBER(1,0) Y 测量过程发生的警告 / Metavision specific columns
ERROR NUMBER(1,0) Y 测量过程发生的错误 / Metavision specific columns
RESULTSTATUS VARCHAR2(20 BYTE) Y 测量类型 ‘Manual’ or ‘Automatic’ / CareVue specific columns
STOPPED VARCHAR2(20 BYTE) Y 测量是否停止
DATETIMEEVENTS (日期型事件表)
Name Postgres data type 说明
ROW_ID INT 行号
SUBJECT_ID INT 患者编号
HADM_ID INT 病案号
ICUSTAY_ID INT ICU病案号
ITEMID INT 项目标识符
CHARTTIME TIMESTAMP(0) 记录时间
STORETIME TIMESTAMP(0) 存储时间
CGID INT 护理人员标识符
VALUE TIMESTAMP(0) 项目测量的值
VALUEUOM VARCHAR(50) 项目测量的值对应的单位
WARNING SMALLINT 测量过程发生的警告 / Metavision specific columns
ERROR SMALLINT 测量过程发生的错误 / Metavision specific columns
RESULTSTATUS VARCHAR(50) 测量类型 ‘Manual’ or ‘Automatic’ / CareVue specific columns
STOPPED VARCHAR(50) 测量是否停止
INPUTEVENTS(注射事件表(CV))
Name Postgres data type 说明
ROW_ID INT -
SUBJECT_ID INT -
HADM_ID INT -
ICUSTAY_ID INT -
CHARTTIME TIMESTAMP(0) 记录时间
ITEMID INT 项目标识符
AMOUNT DOUBLE PRECISION 总入量
AMOUNTUOM VARCHAR(30) 入量单位
RATE DOUBLE PRECISION 给药速率
RATEUOM VARCHAR(30) 速率单位
STORETIME TIMESTAMP(0) 存储时间
CGID BIGINT 护理人员编码
ORDERID BIGINT 同一次输入的多个药物进行链接
LINKORDERID BIGINT 同一次的单个药物不同改变进行链接
STOPPED VARCHAR(30) 输入是否暂停
NEWBOTTLE INT 新配制的溶液
ORIGINALAMOUNT DOUBLE PRECISION -
ORIGINALAMOUNTUOM VARCHAR(30) -
ORIGINALROUTE VARCHAR(30) -
ORIGINALRATE DOUBLE PRECISION -
ORIGINALRATEUOM VARCHAR(30) -
ORIGINALSITE VARCHAR(30) -

RIGINALAMOUNT, ORIGINALAMOUNTUOM, ORIGINALROUTE, ORIGINALRATE, ORIGINALRATEUOM , ORIGINALSITE

这些列提供有关药物首次输入信息系统时所使用的解决方案的信息
INPUTEVENTS_MV (注射事件表(MV))
Name Postgres data type 说明
ROW_ID INT -
SUBJECT_ID INT -
HADM_ID INT -
ICUSTAY_ID INT -
STARTTIME TIMESTAMP(0) 入量开始时间
ENDTIME TIMESTAMP(0) 入量结束时间
ITEMID INT 项目标识符
AMOUNT DOUBLE PRECISION 总入量
AMOUNTUOM VARCHAR(30) 入量单位
RATE DOUBLE PRECISION 给药速率
RATEUOM VARCHAR(30) 速率单位
STORETIME TIMESTAMP(0) 存储时间
CGID BIGINT 护理人员编号
ORDERID BIGINT 同上
LINKORDERID BIGINT 同上
ORDERCATEGORYNAME VARCHAR(100) -
SECONDARYORDERCATEGORYNAME VARCHAR(100) -
ORDERCOMPONENTTYPEDESCRIPTION VARCHAR(200) -
ORDERCATEGORYDESCRIPTION VARCHAR(50) -
PATIENTWEIGHT DOUBLE PRECISION 患者体重 (kg)
TOTALAMOUNT DOUBLE PRECISION 溶液液体总量
TOTALAMOUNTUOM VARCHAR(50) 溶液液体总量单位
ISOPENBAG SMALLINT -
CONTINUEINNEXTDEPT SMALLINT 转移是否继续入量
CANCELREASON SMALLINT 取消原因
STATUSDESCRIPTION VARCHAR(30) 项目最终状态 changed paused finishedrunning stopped rewritten flushed
COMMENTS_STATUS VARCHAR(30) -
COMMENTS_TITLE VARCHAR(100) -
COMMENTS_DATE TIMESTAMP(0) -
ORIGINALAMOUNT DOUBLE PRECISION -
ORIGINALRATE DOUBLE PRECISION -

COMMENTS_STATUS, COMMENTS_TITLE, COMMENTS_DATE

指定是编辑还是取消订单,如果是,则指定取消或编辑该订单的护理员的日期和职位。

ORIGINALAMOUNT

通常将药物混合在溶液中,并从同一袋子连续输送。此栏代表处袋子中所含药物的数量STARTTIME。对于第一次注入一个新袋子,ORIGINALAMOUNT= TOTALAMOUNT。以后,如果速率改变了,那么袋子中的药物量就会减少(因为有些药物已经施予患者了)。结果,ORIGINALAMOUNT<TOTALAMOUNT和ORIGINALAMOUNT将是该处袋子中剩余药物的数量STARTTIME。

ORIGINALRATE

这是护理人员输入的费率。请注意,这可能RATE由于各种原因而有所不同:ORIGINALRATE是原始计划费率,而RATE列将是实际交付的费率。例如,如果一个袋子快要用完了,而护理人员决定将剩余的液体推入,则RATE> ORIGINALRATE。但是,这两列通常是相同的,但由于四舍五入误差,在临床上的差别很小。

以色列MIMIC(Medical Information Mart for Intensive Care)数据库可作为机器学习科研研究,我提过一些简单knn建模代码预测乳腺癌细胞。

cancer=load_breast_cancer()

#mglearn.plots.plot_knn_classification(n_neighbors=3)
X_train,x_test,y_train,y_test=train_test_split(cancer.data,cancer.target,stratify=cancer.target,random_state=42)

knn=KNeighborsClassifier()
knn.fit(X_train,y_train)
print("accuracy on the training subset:{:.3f}".format(knn.score(X_train,y_train)))
print("accuracy on the test subset:{:.3f}".format(knn.score(x_test,y_test)))

python机器学习疾病诊疗预测概述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值