【医学-机器学习-论文】Predicting Cardiovascular Disease Mortality

【论文翻译与理解】Predicting Cardiovascular Disease Mortality: Leveraging Machine Learning for Comprehensive Assessment of Health and Nutrition Variables

Nutrients. 2023 Sep; 15(18): 3937.
Published online 2023 Sep 11. doi: 10.3390/nu15183937
链接: 论文

前言

        本文通过使用国家健康与营养调查的数据,利用机器学习模型,尤其是随机森林算法,来识别与心血管疾病死亡率相关的风险因素,强调了在心血管疾病的预防和治疗中,全面评估健康状况和饮食摄入的重要性。通过分析,研究突出了年龄、血压以及特定的营养成分,如纤维、钙和维生素E等,对心血管疾病死亡风险的影响。此外,研究结果表明,将营养变量纳入预测模型能够提升模型性能,证实了在使用机器学习进行健康数据分析时,饮食信息的价值。这提示未来在心血管疾病风险评估和管理中,应更多地考虑到饮食因素。

一、背景

1.1. 背景

        心血管疾病(CVD)是全球卫生领域的主要关注点之一,持续被列为主要死亡原因。这一广泛分类包括影响心脏和血管的疾病,如冠状动脉疾病、心力衰竭和中风。这些健康问题每年夺去数百万人的生命,强调了开发有效预防策略的紧迫性。
        研究人员日益认识到营养健康在显著影响CVD死亡率方面的潜力。营养健康涉及摄入对身体功能和整体福祉必需的基本营养素。从摄入正确的卡路里量、实现宏观营养素(如蛋白质、脂肪和碳水化合物)的平衡摄入,到确保维生素和矿物质等微量营养素的充足水平,营养可以影响包括心血管健康在内的各种生理功能。然而,尽管营养至关重要,但将这些多方面的营养因素全面整合到现有心血管风险预测模型中仍然是一项挑战。
        当前的风险模型常常难以准确捕捉个体的营养概况。营养指标的广泛性复杂,给试图将这些信息综合成有意义数据的临床医生和研究人员带来障碍。然而,随着生活方式因素——主要是不健康的饮食习惯——显著促进CVD的日益普遍,将这些因素有效地纳入风险模型,以实现更准确和个性化的预防策略,变得至关重要。
        机器学习(ML)的出现提供了克服当前预测模型局限性的潜力。ML能够处理复杂的营养数据及其非线性关系,这是传统回归模型无法实现的。这些先进技术可以处理庞大且稀疏的数据矩阵,识别众多变量之间的复杂模式和关系。然而,ML模型也存在问题:它们的“黑盒”性质使得难以解释。虽然基于特征重要性的解释可以提供一些洞见到ML模型的内部工作机制,但管理多重共线性和冗余变量等问题仍然是一大挑战。
        幸运的是,如国家健康与营养调查(NHANES)这样的综合性数据库,允许进行详细的营养分析。通过在如此广泛的数据集上应用先进的ML技术,可以辨识不同类型营养素之间的复杂相互作用及其与CVD结果的非线性关系——远超传统回归模型或综合营养指数的范围。然而,关于饮食回忆中的营养数据是否能显著增强CVD死亡风险预测,超越传统使用的生物标志物(如血压或胆固醇水平)所达到的效果,仍存在不确定性。
        在优化CVD风险预测的追求中,考虑先进的分析方法并将详细的饮食数据整合到这些模型中至关重要。最终目标是提高风险估计的精确度,允许更有效的预防措施和早期干预策略。这一进展不仅会增加公共健康努力的效果,还为个人提供了管理心血管健康的可行洞见。

1.2. 概述

        在本研究中,构建了基于ML的CVD死亡预测模型。采用了三种不同的模型,即健康、营养和综合两方面的混合模型。这些模型旨在将变量简化为几种ML算法中,消除多重共线性和冗余。目标是改善数据的完整性,同时保持模型的可解释性。
        为评估每种ML算法的有效性,采用了面积下曲线(AUC)、准确率(ACC)、召回率、精确率和F1分数等多种性能指标。在特征选择方面,使用基于方差膨胀因子(VIF)的过滤,有效排除多重共线性和冗余变量。这种机制有助于保持模型的可理解性。此外,实施了类平衡策略,旨在提高分类模型的置信度。
        解释模型意味着识别CVD的显著风险因素。为此,采用了Shapley加性解释(SHAP)值,这是一种理论基础的模型解释后处理技术。SHAP值能够识别CVD的关键风险因素,并理解这些因素与CVD之间的关系性质。

二、数据及方法

2.1. 研究设计

        本研究资料来源于2003年至2012年国家健康和营养调查(NHANES)收集的数据。NHANES是国家健康统计中心(NCHS)的一个重要项目,通过每两年一次的调查,提供美国人群健康行为、慢性病流行情况以及营养状况的关键信息。这项复杂的多阶段概率群聚调查使用的抽样方法旨在代表整个美国人口,包括分层和不等抽样概率等方面。
        NHANES设计的性质引入了非参与错误、无响应错误和样本设计错误的可能性。为了减轻这些偏差,NHANES提供了复杂的抽样权重,允许研究人员适当调整他们的数据分析。在研究中,采用了这些抽样权重进入基于ML模型的分析,这是从传统的基于逻辑回归方法的偏离。
        使用的数据来自提供了健康和饮食问卷回应以及健康检查变量的50,912名参与者的大样本。根据NHANES数据分析指南,整合了2003年到2012年的数据。应用了严格的排除标准,移除了20岁以下、有CVD既往史、提供不完整饮食数据以及报告日常卡路里摄入量低于800千卡或高于6000千卡的参与者。因此,选择了最终的研究人群9706名参与者。
        在欠采样之后,数据集随机分为训练集(n = 345 (80%))和测试集(n = 87 (20%))。数据准备过程的流程图如图1所示。

图1

        研究是使用Python 3.7.11(https://www.python.org/,2023年6月1日访问)以及兼容的开源包进行数据分析和ML模型构建的。

2.2. 主要结果

        本研究的主要结果集中在使用2003年至2012年NHANES数据的ML算法预测CVD相关死亡率。通过国家死亡指数(NDI)链接确定CVD相关死亡的发生,特别是由于心脏疾病或脑血管疾病导致的死亡。CVD死亡率定义为从NHANES访谈到CVD相关死亡的时间。在参与者因其他原因死亡的情况下,这些被视为审查数据。纳入标准包括在访谈时年龄超过20岁且没有CVD既往史的参与者。没有实施任何措施来盲化预测因素对结果或其他预测因素的评估。此外,也没有采取措施盲化结果本身的评估。

2.3. 数据预处理和变量选择

        从2003年至2012年的NHANES中,提取了每两年收集的健康问卷和检查变量。任何缺失值超过30%的变量都不被考虑用于分析。从剩余数据中,为营养模型选择了33个变量;这些变量除了“Milk_int”变量外,都是从总营养摄入文件中提取的,而“Milk_int”变量是通过结合
        饮食和行为问卷中的几个变量创建的。健康模型包括通过人口统计、实验室、检查和问卷方法收集的所有非营养相关变量。有关所选变量的更多信息可以在补充表S1和S2中找到。缺失值少于30%的数据通过模式替换用于分类变量和Scikit-Learn IterativeImputer(RandomForestRegressor模型)用于数值变量进行插补。
        通过考虑变量的临床意义、VIF和变量之间的相关系数来确定应该移除的变量。移除了多重共线性,以帮助区分每个变量对回归或分类的影响。使用每个变量的VIF和变量之间的相关系数计算多重共线性。对于这项研究,选择了小于10的VIF值作为截止值。如果变量的VIF值超过此限制,则考虑移除该变量。ML模型考虑的最终预测变量包括年龄、性别、种族(黑人、西班牙裔)、是否有医疗保险和教育水平等人口统计变量。考虑到的CVD风险因素包括体质指数(BMI, kg/m^2)、腰围(cm)、总胆固醇(mg/dL)、高密度脂蛋白(HDL)和低密度脂蛋白(LDL)胆固醇水平(mg/dL)、血红蛋白(g/dL)、糖化血红蛋白(%)、收缩压和舒张压(mm Hg)、糖尿病状况(是/否)、饮酒状况(不饮酒/饮酒)和当前吸烟状况(吸烟/戒烟/从不)。其他考虑的相关血液生物标志物包括钙(mg/dL)、铁(mcg/dL)、钾(mEq/L)、钠(mg/dL)、磷(mmol/L)和尿酸(mg/dL)。根据以下CKD-EPI方程从肌酐值(mg/dL)计算估计的肾小球滤过率eGFR:
eGFR
        其中Scr是血清肌酐(mg/dL),(\kappa)是女性为0.7,男性为0.9,(\alpha)是女性为-0.329,男性为-0.411,min表示Scr/(\kappa)或1的最小值,max表示Scr/(\kappa)或1的最大值。
        此外,还考虑了营养变量,包括每日标准化摄入的微量营养素(例如,钠、镁)和宏量营养素(例如,饱和脂肪、糖、蛋白质)。除了统计考虑外,最终选择的营养特征还受其在文献中关于CVD死亡率的已建立相关性的影响。例如,总糖摄入量、纤维摄入量和总碳水化合物摄入量表现出高共线性。基于其他两个变量对CVD和其他代谢综合征
        相关疾病的更大相关性,移除总碳水化合物摄入量。这些饮食元素是从NHANES访谈后立即进行的两次独立24小时饮食回忆的总营养摄入文件中平均得到的。

2.4. 训练机器学习模型

        选择变量后,设定了五种ML模型用于预测CVD死亡:逻辑回归、SVM、RF、XGBoost和LigthGBM。采用了5折交叉验证方法。交叉验证方法是一种防止过拟合的有效方式,通过用各种训练和验证数据组合测试模型来实现。
        研究组内的类别比例显著偏斜(CVD:non-CVD = 1:43.9)。在这样一个不平衡的数据集的情况下,模型可能会过度拟合非CVD实例,导致低敏感性表现。因此,调整了CVD与非CVD案例之间的比例以实现平衡,采用欠采样,确保模型在CVD患者案例上得到充分训练。对于模型训练的实施,使用了Scikit-Learn版本1.0.2(https://scikit-learn.org,2022年4月5日访问)。

2.5. 性能指标

        使用不同模型的性能进行了测量和比较,以评估它们对不同结果——健康、营养和混合的预测能力。使用几个性能指标对二元模型(案例与非案例)进行了评估。平衡准确率(ACC)是敏感性和特异性的平均值,在类分布不平等的情况下提供更平衡的度量。敏感性,也称为召回率,表示从总正例中正确识别为正例的实际正例的比例,即TP/(TP + FN)。另一方面,特异性是从总负例中正确识别的实际负例的比例,即TN/(TN + FP)。精确度,也称为阳性预测值,是从所有预测为阳性的案例中真正阳性案例的比例,即TP/(TP + FP)。这个指标提供了模型预测案例为阳性时达到的正确性的洞察。AUC是模型区分类别能力的度量。它提供了跨所有可能的分类阈值的性能综合度量。F1分数是精确度和召回率的调和平均值。对于二元分类模型来说,它是一个平衡的度量,特别是当类分布不均时非常有用。
F1

2.6. 变量重要性

        由于理解这些算法如何为特定患者群体提供精确预测的复杂性,ML模型常被视为难以解读。为了缓解这个问题,在研究中使用了SHAP值,这是由Lundberg和Lee[12]最初提出的一个综合框架。通过使用SHAP,能够为随机森林预测模型提供可靠且局部精确的特征归因,旨在识别CVD死亡的主要决定因素。SHAP值用于评估模型中包含每个特征时对结果的贡献,
        同时考虑与所有其他特征的潜在交互。这种方法使能够证明预测模型背后的理由,该模型包含了导致死亡的相关风险因素。允许评估最终模型中的特征排名的重要性。

三、实验结果

3.1. 变量选择和一般特征

        研究从提取所有可能与CVD相关的变量开始,这些变量来自NHANES数据库。遵循第2节中描述的过滤后,最终选用了59个变量用于开发CVD分类器。为了确保结果具有代表性,应用了复杂的抽样权重来定义研究人群,这最小化了原始数据集中的偏差。
        研究人群包括9706名参与者。其中216人(2.3%)患有CVD。表1展示了本研究中使用的变量的一般特征,p值低于0.001。患有CVD的人主要年龄较大,中位年龄为68岁,与对照组的43岁相比;更可能是男性;并且具有更高的BMI、平均腰围、收缩血压、HDL、糖化血红蛋白、血红蛋白、钾、乳酸脱氢酶、钠和尿酸水平。他们还具有更高的医疗保险覆盖率,教育水平较低(大多数未达到九年级以上教育),以及更高的吸烟或曾经吸烟的比率。
观察到患有CVD和没有CVD的人之间饮食摄入的差异(表1下部)。患有CVD的人钙、铜、纤维、叶酸、镁、烟酸、多不饱和脂肪酸、蛋白质、钠、糖以及维生素B1、B6和E的中位摄入量较低。
        包括那些p值高于0.001的变量的完整变量列表可以在补充表S3和S4中找到。

3.2. 模型性能比较

        表2展示了三种不同模型(健康、营养和混合)的各种方法的性能。表格包括了三种模型下每种算法的ACC、AUC、召回率、精确度和F1分数。每个模型的最高性能以粗体突出显示。在健康类别中,值得注意的是随机森林和ThunderSVM模型在预测CVD死亡方面表现出优越的性能。具体来说,随机森林模型特别熟练,准确度和所有其他指标(召回率、精确度和F1分数)均为0.8。
        与此同时,ThunderSVM紧随其后,展示了在所有指标上的平衡表现,值为0.79,并且以0.88的AUC超过了随机森林。其他模型,即逻辑回归、XGBoost和LightGBM,也表现出合理但略低的性能指标。在营养类别中,随机森林再次是整体表现最好的算法。该算法展示了优越的性能,准确度、AUC、召回率、精确度和F1分数均均衡地达到0.7。包括逻辑回归和LightGBM在内的其他模型也显示了值得注意的结果,最高AUC值为0.7。然而,与随机森林模型的整体一致性相比,它们表现不佳。在混合类别中,结合健康和营养数据,观察到不同模型性能的变化。值得注意的是,随机森林模型成为最佳表现者,准确度、召回率、精确度和F1分数达到0.82,AUC为0.88。类似地,XGBoost和LightGBM模型展现了竞争性的表现,所有指标但AUC均在0.8和0.79左右,AUC为0.87。结果显示,基于考虑的数据类别,不同模型在预测CVD死亡方面的有效性各不相同。在健康类别中,随机森林和ThunderSVM模型展现了接近的性能指标,尽管随机森林模型略微超过其他模型。在营养类别中,所有模型普遍比健康类别表现得不那么有效,随机森林模型再次证明是最优秀的算法。对于混合类别,尽管所有模型都显示出改善的指标,随机森林模型继续在所有指标上一致地超过其他模型。

表2

3.3. 预测变量分析

        SHAP值描述了每个变量在个别实例中对预测结果的相对重要性。汇总了测试集上的SHAP值,以区分健康、营养和混合三种模型的主要影响因素。变量根据它们在这些模型中的平均SHAP值按降序排列。
        如图2中的SHAP值所示,年龄被发现是总体上最强有力的变量,健康和混合模型的SHAP值分别为0.13和0.1。对于健康模型,收缩血压(0.03)和尿酸、血红蛋白、HbA1C、乳酸和腰围等几个其他因素也显示出正相关,意味着这些变量的更高值倾向于将个体分类为更高的健康风险类别。另一方面,eGFR和舒张血压显示出负相关,表明这些较低的值与增加的风险相关。
        在营养模型中,纤维(0.05)和钙(0.03)是与CVD死亡风险负相关的最有影响力的变量,其次是多不饱和脂肪酸、维生素E和镁(0.02),以及维生素B6和蛋白质(0.01),表明饮食中这些营养素的较低水平与更高的CVD死亡风险相关。有趣的是,维生素B2(0.03)、钾(0.02)和钠(0.01)与CVD死亡风险呈正相关。
        结合健康和营养变量的混合模型,有影响力的变量类似于各自模型中的变量,年龄和eGFR显示出高度重要性,其相关性与在各自模型中观察到的一致。
        需要注意的是,SHAP值的解释取决于变量与预测结果之间关系的方向性。如图2下部所示,正和负的SHAP值分别暗示了从CVD中更高风险的可能性增加或减少。
        考虑到类别不平衡可能降低模型输出,从而减少SHAP值,同时进行了特征选择,以防止数据中的多重共线性并确保对年龄、收缩血压和eGFR等关键变量的准确重要性估计。所有变量的完整SHAP值列表分别在补充图S1和S2(混合模型)、补充图S3和S4(健康模型)以及补充图S5和S6(营养模型)中呈现。
在这里插入图片描述

四、讨论

        CVD发病率的不断增长在很大程度上可以归因于西方饮食习惯和健康行为的适应,进而导致相关并发症和死亡率的上升。由于与慢性疾病相关的高社会经济负担,积极识别和管理风险因素,甚至在疾病发作之前,政策兴趣日益增长。为了解决这一问题,利用了2003年至2012年进行的NHANES数据。旨在识别与CVD死亡率相关的风险因素,考虑人口统计、饮食和生活方式以及生理方面。
        检查研究人群的一般特征,观察到,被诊断为CVD的个体主要是年龄较大、男性、具有更高的BMI,并显示出若干临床参数的升高水平,如收缩血压、HDL和尿酸。这些观察结果与已知的CVD人口统计和生理风险因素大体一致。糖化血红蛋白、尿酸和eGFR,分别是糖尿病、痛风和肾脏病的标志物,之前已与CVD相关联。在死于CVD的人群中观察到的吸烟率较高和教育水平较低也已在之前的报道中提到。
        死于CVD的参与者表现出多种营养素的显著较低的中位摄入量。一些营养素,如多不饱和脂肪、镁和膳食纤维,之前已因其在调节胆固醇水平、炎症或总体心脏功能中的作用而与心血管健康相关联。Rigdon和Basu也发现膳食纤维和烟酸摄入量与CVD死亡率之间存在保护性相关。相反,经常被指责与CVD有关的糖和钠摄入量,在CVD死亡组中也观察到比对照组低,这一发现与现有证据相反。这种偏差可能表明传统分析方法面对大型数据集或NHANES数据库中饮食数据的潜在不足时的局限性,考虑到它只包括两天的饮食记录。
        CVD死亡预测模型在识别风险个体方面展示了跨所有指标的稳定一致性,如表2所示。随机森林模型在基于健康的模型中表现最强。然而,像逻辑回归这样的简单模型仍然提供了可比的结果。这可以归因于随机森林在较小数据集或较高异常值/噪声影响下过度拟合的倾向。
        营养模型的准确度低于健康和混合模型。这种相对表现不佳可能归因于健康变量在预测CVD结果方面比营养变量具有更高的预测能力,或者是NHANES数据集中营养数据的不足。尽管如此,混合模型在所有算法中一致超过健康和营养模型的性能,ThunderSVM在健康模型中达到最高分数是唯一的例外。Rigdon等在使用随机森林处理饮食数据时也发现了最佳结果。
        相比之下,这些发现与先前研究的结果一致,这些研究证明了ML在健康数据分析中的实用性以及考虑健康和营养变量的重要性。有趣的是,Rigdon和Basu的研究显示,将营养数据纳入统计模型并未提高其预测鉴别力或校准。然而,当这些信息被整合到ML模型中时,这两个指标都有所提高。这支持了ML模型可能更有效地利用饮食信息预测健康结果的论点,可能是通过整合更多与食物相关的变量并考虑非线性和非加性关系。结果强化了在预测CVD结果时利用健康和营养变量的好处,提供了个体健康状况的更全面表示。
        SHAP值揭示了对CVD死亡风险有显著影响的各种健康和营养变量。尽管由于变量选择的差异,与先前研究直接比较存在挑战,但图表中列出的大多数风险因素与先前研究的发现一致。年龄、收缩血压和舒张血压、以及当前吸烟状态一直被强调为CVD分类或死亡风险的重要变量。使用ML方法也将糖化血红蛋白确定为CVD发作的风险因素。虽然先前的研究发现胆固醇、教育和性别是其最相关的变量,这些因素在研究中存在但并未排在最重要变量之列(补充图S3和S4)。有趣的是,研究强调了低eGFR和高尿酸及乳酸脱氢酶水平的通常被忽视的重要性,强调了在CVD风险评估中全面评估痛风或肾功能等其他条件的需要。
        关于饮食变量的影响,研究确定纤维、钙、镁、多不饱和脂肪酸、维生素E、维生素B6、蛋白质、维生素B2、钾和钠的摄入是ML模型的重要特征。Dihn等也报告了钙、纤维和钠是其ML分析中最关键的变量。维生素B2与CVD死亡风险的正相关可能归因于混杂因素,考虑到其主要的饮食来源之一是肉类产品,这些产品之前已被报告对CVD有贡献。建议低或适中的钾摄入量,结合更高的钾摄入量,以避免高血压并减少CVD死亡率。虽然模型识别出高钠摄入量为关键特征,高钾消费也与CVD死亡相关。然而,重要的是要注意,钾与CVD死亡率之间的关系是多因素的,受年龄、肾功能(如eGFR所示)、收缩血压和其他营养成分等因素的影响。这些额外的变量,它们在模型中也排名很高,与钾代谢以复杂的方式相互作用,可能放大其对心血管系统的影响。在混合模型中,两个变量作为CVD相关死亡的关键预测因素:纤维和维生素E摄入。这两种营养素已广泛报道为预防CVD。
        研究的主要缺点是,大多数营养数据是通过两次24小时饮食回忆收集的。此外,由于多重共线性问题,许多营养因素被省略。这可能削弱了确定重要因素的能力,可能产生一些错误的结论。此外,CVD相关死亡与对照组之间的年龄和性别分布差异可能引入了偏见。虽然外部数据集本能增强发现的有效性,但在本研究中没有使用。未来采用更大的数据集和重复的饮食评估或食物频率问卷可能有助于缓解这个问题。

总结

        许多研究使用了饮食数据来预测与CVD相关的死亡。研究涵盖了广泛的饮食变量,成功地指出了在CVD死亡率预测中可能具有重要作用的营养素。进一步调查对于确定这些观察到的关联是否具有因果关系至关重要。结果强调了需要更广泛地探索使用机器学习分析和利用营养流行病学中复杂的饮食暴露的需求。人工智能(AI)方法在预测准确性、操作效率、成本效益和用户可访问性方面呈现出巨大的潜力,有望超越传统和特定领域的方法。预计将这些技术应用于大型队列研究或具有反复饮食回忆或食物频率问卷的广泛数据源将显著增强它们的总体价值。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值