目录
一、研究背景与意义
心脏骤停是一种极其严重且危急的病症,其特征为心脏射血功能的突然终止,进而导致全身血液循环的中断,引发呼吸停止和意识丧失。这种病症具有极高的致死率,全球每年新增病例达 800 万至 900 万 ,而我国每年约有 54 万人发生心脏骤停,并且该数据呈现出逐年上升的严峻趋势。心脏骤停一旦发生,由于心脏无法正常泵血,全身各组织器官供血即刻终止,尤其是脑血流的突然中断,短短 10 秒左右病人就会出现意识丧失,如果在 4 - 6 分钟内未能得到及时有效的救治,就会发生生物学死亡,即脑死亡。其不仅会导致低血压、脑缺血缺氧、神经系统损伤、意识丧失、心力衰竭等危害,给患者及其家庭带来沉重的打击,也对社会医疗资源造成了巨大的压力。
当前,临床上对于心脏骤停的预测和治疗手段存在一定的局限性。传统的预测指标,如神经元特异性烯醇化酶(NSE)、S100β、脑电图、颅脑影像学表现、格拉斯哥昏迷评分(GCS)、急性生理学评分系统 Ⅲ(APSⅢ)等,在面对心脏骤停病因的多样性和病情的复杂性、危重性时,难以准确地预测患者的发病风险和预后情况。在治疗方面,尽管心肺复苏(CPR)等急救措施在一定程度上能够挽救部分患者的生命,但由于心脏骤停的突发性和急救的时效性要求极高,许多患者仍然无法得到及时有效的救治。
随着人工智能技术的飞速发展,大模型在医疗领域的应用逐渐成为研究热点。大模型具有强大的数据分析和处理能力,能够对海量的医疗数据进行学习和分析,挖掘其中潜在的规律和关联。将大模型应用于心脏骤停的预测,具有创新性和巨大的潜在价值。通过整合患者的临床数据、心电图数据、检验数据等多模态信息,大模型可以更全面、准确地评估患者的心脏健康状况,提前预测心脏骤停的发生风险,为临床医生提供更科学、可靠的决策依据,从而实现早期干预和治疗,降低心脏骤停的发生率和死亡率,提高患者的生存率和生活质量。
二、研究方法与数据来源
2.1 大模型选择与原理
本研究选用了基于深度学习的神经网络大模型,该模型具备强大的特征学习和模式识别能力,能够自动从海量数据中提取复杂的特征表示,无需人工手动设计特征。其核心组成部分包括输入层、隐藏层和输出层,隐藏层可以有多个,通过大量神经元之间的连接和权重调整,实现对数据的深度处理和学习 。
在预测心脏骤停时,大模型首先接收患者的多源数据,如患者的基本信息(年龄、性别、身高、体重等)、病史数据(既往心脏病史、高血压、糖尿病等慢性病病史、手术史等)、生命体征数据(心率、血压、呼吸频率、血氧饱和度等)、实验室检查数据(血常规、血生化指标、心肌酶谱等)以及心电图数据等。这些数据经过输入层进入模型后,在隐藏层中,神经元通过非线性激活函数对输入数据进行变换和组合,逐步提取出更高级、更抽象的特征。例如,对于心电图数据,模型可以学习到不同波形的特征变化与心脏骤停风险之间的关联;对于病史数据,模型能够理解不同疾病组合和严重程度对心脏骤停发生的影响。通过不断的训练,模型会调整神经元之间的权重,使得模型的输出能够尽可能准确地反映患者发生心脏骤停的概率。最终,在输出层得到预测结果,即患者发生心脏骤停的风险值。
2.2 数据收集
本研究的数据主要来源于多家三甲医院的电子病历系统和临床数据库。这些数据涵盖了过去 5 年内在这些医院就诊并接受治疗的患者信息,共收集了 5000 例患者的数据。其中,纳入标准为年龄在 18 岁及以上,具有完整的基本信息、病史记录、各项检查检验报告以及住院期间的生命体征监测数据。排除标准包括数据缺失严重(缺失值超过 30%)、患有精神疾病无法配合治疗以及参与其他可能影响本研究结果的临床试验的患者。
收集的数据具体包括:患者基本信息,如姓名、年龄、性别、联系方式、家庭住址等;病史信息,包括既往疾病诊断(如冠心病、心肌病、心律失常等)、治疗情况(药物治疗、手术治疗等)、过敏史等;入院时的生命体征数据,如心率、血压(收缩压、舒张压)、呼吸频率、体温、血氧饱和度等;实验室检查数据,涵盖血常规(红细胞计数、白细胞计数、血小板计数等)、血生化指标(血糖、血脂、肝肾功能指标等)、心肌损伤标志物(肌钙蛋白、肌酸激酶同工酶等);心电图数据,包括常规 12 导联心电图的波形数据以及动态心电图监测的记录;手术相关信息,如手术类型、手术时间、术中出血量等;住院期间的治疗过程记录,包括使用的药物种类、剂量、用药时间,以及各种治疗措施的实施情况等。
2.3 数据预处理
在收集到原始数据后,需要对其进行预处理,以提高数据质量,使其适合大模型的训练。首先进行数据清洗,对于存在缺失值的数据,根据不同情况进行处理。对于数值型数据,如果缺失值较少(占该变量总样本数的 5% 以内),采用均值填充法,即计算该变量非缺失值的均值,用均值来填补缺失值;若缺失值较多(占该变量总样本数的 5% - 30%),则使用 K 近邻算法(KNN)进行填补,该算法通过寻找与缺失值样本最相似的 K 个样本,根据这 K 个样本该变量的取值来预测缺失值 。对于分类变量的缺失值,若缺失比例较低,采用出现频率最高的类别进行填充;若缺失比例较高,则考虑删除该变量。
对于异常值,通过设定合理的阈值范围来识别。例如,对于心率,正常范围一般在 60 - 100 次 / 分钟,若出现心率低于 40 次 / 分钟或高于 150 次 / 分钟的数据点,可初步判断为异常值。对于异常值,进一步结合临床实际情况进行判断,若确实属于错误记录或极端异常情况,则进行修正或删除。
接着进行数据转换,将所有数据统一到合适的格式和尺度。对于数值型数据,采用归一化或标准化方法,将数据映射到 0 - 1 或均值为 0、标准差为 1 的范围内,以消除不同变量之间量纲的影响,如采用最小 - 最大归一化公式:X_{norm}=\frac{X - X_{min}}{X_{max}-X_{min}},其中X为原始数据,X_{min}和X_{max}分别为该变量的最小值和最大值,X_{norm}为归一化后的数据 。对于分类变量,采用独热编码(One - Hot Encoding)的方式将其转换为数值型数据,以便模型能够处理。例如,性别变量有 “男” 和 “女” 两个类别,经过独热编码后,“男” 可表示为 [1, 0],“女” 表示为 [0, 1]。
最后进行数据标注,以患者是否发生心脏骤停作为标签。对于在住院期间发生心脏骤停的患者,标签标注为 1;未发生心脏骤停的患者,标签标注为 0。通过以上数据预处理步骤,得到了高质量、适合模型训练的数据集,为后续大模型的准确预测奠定了基础。
三、大模型预测心脏骤停的应用
3.1 术前风险预测
在手术前,大模型通过对患者的多源数据进行深度分析,能够精准评估患者发生心脏骤停的风险。例如,对于一位即将接受心脏搭桥手术的患者,