一个卒中后继发癫痫的数据集和初步分析
除了分析技术、分析思路,数据分析过程中更加难得的是优质的分析数据。这里给大家介绍一个dryad上发布的优质数据,之所以说是优质数据,首先是量大(2万+条),其次是收集的变量种类较多(75个变量),让分析的思路比较丰富,可以进行整体分析,也可以进行分组分析;最后是具有良好的初步分析结果。
作者发表了相关的论文,可以作为参考资料,也使得数据集的背景资料比较详尽,也公布了相关的代码,但并不妨碍从不同角度对数据进行深入分析。
良好的初步分析结果
从整体上进行分析,
- 使用boruta初步筛选与结局变量相关的变量。Boruta是当前流行的变量筛选的算法,可以鉴定出结果显示,多个变量与结局指标相关,[‘age’, ‘plt’, ‘wbc’, ‘rbc’, ‘hba1c’, ‘crp’, ‘tg’, ‘ldl’, ‘hdl’, ‘ast’, ‘alt’, ‘bilirubin’, ‘albumin’, ‘urea’, ‘creatinine’, ‘bua’, ‘pt’,‘aptt’, ‘tt’, ‘d_dimer’, ‘fibrinogen’, ‘ck’, ‘ck_mb’, ‘ldh’, ‘hbdh’, ‘ima’, ‘na’, ‘k’, ‘cl’, ‘ca’, ‘p’, ‘lactate’, ‘anion_gap’, ‘tco2’, ‘nihss’], 应该是需要进一步筛选。
这些指标主要是通过实验室检查实现的,具体如下:
- 血液检查:
- 血常规:可检测出
age
(患者年龄,一般在采集血液样本时记录)、plt
(血小板计数)、wbc
(白细胞计数)、rbc
(红细胞计数)。- 血糖相关检查:
hba1c
(糖化血红蛋白)用于反映过去2 - 3个月的平均血糖水平,是通过血液检测得出。- 炎症指标检查:
crp
(C反应蛋白)是一种急性时相反应蛋白,血液检测可了解体内炎症状态。- 血脂检查:
tg
(甘油三酯)、ldl
(低密度脂蛋白)、hdl
(高密度脂蛋白)通过血液检测,可评估血脂水平,了解心血管疾病风险。- 肝功能检查:
ast
(天门冬氨酸氨基转移酶)、alt
(丙氨酸氨基转移酶)、bilirubin
(胆红素)、albumin
(白蛋白)等指标可反映肝脏功能,通过血液检测了解肝脏是否存在损伤、代谢异常等情况。- 肾功能检查:
urea
(尿素)、creatinine
(肌酐)、bua
(血尿酸)是常用的肾功能指标,血液检测可评估肾脏的排泄和代谢功能。- 凝血功能检查:
pt
(凝血酶原时间)、aptt
(活化部分凝血活酶时间)、tt
(凝血酶时间)、d_dimer
(D - 二聚体)、fibrinogen
(纤维蛋白原)等指标通过血液检测,用于评估机体的凝血功能和纤溶状态,辅助诊断血栓性疾病、出血性疾病等。- 心肌损伤标志物检查:
ck
(肌酸激酶)、ck_mb
(肌酸激酶同工酶MB)、ldh
(乳酸脱氢酶)、hbdh
(羟丁酸脱氢酶)、ima
(缺血修饰白蛋白)等指标可通过血液检测,用于诊断心肌梗死、心肌炎等心肌损伤性疾病。- 其他检查:
- 血气分析:
lactate
(乳酸)、anion_gap
(阴离子间隙)、tco2
(总二氧化碳)等指标可通过血气分析检测,用于评估机体的酸碱平衡、氧合状态和电解质平衡。- 神经功能评估:
nihss
(美国国立卫生研究院卒中量表)是通过医生对患者进行神经系统检查和评估得出,不属于实验室检查范畴,主要用于衡量中风严重程度。
-
SHAP分析排序变量重要性,可从中选择出重点分析的变量。
-
ROC曲线和校准曲线,使用以上变量构建的模型具有良好的ROC曲线(auc=0.99),展示了制作预测模型的可能性,但是目前的结果是使用了全部变量的结果,删去部分变量后是否还能维持高的效能,有待于进一步考察。注意这是一个不平衡数据集。
后续分析方向
- 阐述预测变量与结局变量之间的关系,但是因为相关的变量主要是实验室检查数据,其所代表的因果关系并不明确,需要更多的专业知识进行分析,筛选出的变量众多也给分析带来了一定的困难。
- 构建临床预警模型,结局变量为卒中后继发癫痫,可以遵照预测模型构建的流程形成一个临床上预警卒中后继发癫痫的模型。
- 现有的数据集可以作为主要的分析数据集,搭配本地的外部验证数据集,也可以相反。
数据集详细介绍
结局变量是 second_epilepsy - 继发性癫痫,是本研究的因变量,而预测变量分三大类:
一、并发症
uremia - 尿毒症
dvt - 深静脉血栓形成
fatty_liver - 脂肪肝疾病或肝脂肪变性
diabetes - 糖尿病
hypertension - 高血压
coronary_disease - 冠状动脉疾病
atrial_fibrillation - 一种心律失常,即心房颤动
cerebral_hernia - 脑疝,大脑从正常位置移位的病症
hydrocephalus - 脑积水,大脑中脑脊液过多的情况
hyperuricemia - 高尿酸血症,血液中尿酸水平升高
hyperlipidaemia - 高脂血症,血液中脂质水平升高,也称为高血脂
hypoproteinemia - 低蛋白血症,血液中蛋白质水平降低
二、影像学检查确定的受累区域和血管
frontal_lobe - 大脑额叶
parietal_lobe - 大脑顶叶
temporal_lobe - 大脑颞叶
occipital_lobe - 大脑枕叶
insular_lobe - 大脑岛叶皮质
range_lobe - 额叶、顶叶、颞叶、枕叶和岛叶的综合表述
basal_ganglia - 基底神经节,大脑中的一组神经核团
capsula_interna - 内囊,大脑的一部分
brainstem - 脑干,大脑的下部
epencephalon - 后脑,现代医学术语中不常用的词汇
paraventricular - 室旁,通常指下丘脑的室旁核
centrum_semiovale - 半卵圆中心,大脑的一部分
thalamus - 丘脑,大脑的一部分 aca - 大脑前动脉
mca - 大脑中动脉
pca - 大脑后动脉
va - 椎动脉
ba - 基底动脉
cca_plaque - 颈总动脉斑块
ica_plaque - 颈内动脉斑块
eca_plaque - 颈外动脉斑块
subcortex_lobe - 皮质下叶,指皮质下方的区域
ant_circle - 前循环
post_circle - 后循环
large_ves_as - 大血管病变
三、实验室检查结果:
- plt - 血小板计数 - x10^9/L(个/升)
- wbc - 白细胞计数 - x10^9/L(个/升)
- rbc - 红细胞计数 - x10^12/L(个/升)
- hba1c - 糖化血红蛋白 - %
- crp - C 反应蛋白 - 毫克/升
- tg - 甘油三酯 - 毫克/分升
- ldl - 低密度脂蛋白 - 毫克/分升
- hdl - 高密度脂蛋白 - 毫克/分升
- ast - 天门冬氨酸氨基转移酶 - 单位/升
- alt - 丙氨酸氨基转移酶 - 单位/升
- bilirubin - 胆红素 - 微摩尔/升
- albumin - 白蛋白 - 克/升
- urea - 尿素 - 毫摩尔/升
- creatinine - 肌酐 - 微摩尔/升
- bua - 血尿酸 - 微摩尔/升
- pt - 凝血酶原时间 - 秒
- aptt - 活化部分凝血活酶时间 - 秒
- tt - 凝血酶时间 - 秒
- inr - 国际标准化比值 - 比值
- d_dimer - D - 二聚体 - 纳克/毫升
- fibrinogen - 纤维蛋白原 - 克/升
- ck - 肌酸激酶 - 单位/升
- ck_mb - 肌酸激酶同工酶 MB - 单位/升
- ldh - 乳酸脱氢酶 - 单位/升
- hbdh - 羟丁酸脱氢酶 - 单位/升
- ima - 缺血修饰白蛋白 - 吸光度单位
- lactate - 乳酸 - 毫摩尔/升
- anion_gap - 阴离子间隙 - 毫摩尔/升
- tco2 - 总二氧化碳 - 毫摩尔/升
age - 患者年龄 - 岁
nihss - 美国国立卫生研究院卒中量表,用于衡量中风严重程度的量表
最后
个人感觉这个数据集还是具有值得进一步分析的地方,向大家推荐。