【文献解读】基于机器学习的血浆代谢组学预测肝硬化长期并发症

最新推荐文章于 2024-09-11 14:42:31 发布

MedicineAI

最新推荐文章于 2024-09-11 14:42:31 发布

阅读量963

点赞数 29

文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/MedicineAI/article/details/140447797

版权

论文标题：Machine-learning–based plasma metabolomic profiles for predicting long-term complications of cirrhosis

论文地址：https://journals.lww.com/hep/abstract/9900/machine_learning_based_plasma_metabolomic_profiles.850.aspx

一、论文概述

此研究的目的是利用基于NMR（核磁）的血浆代谢组学分析的潜力来预测肝硬化并发症的10年风险，并训练一个梯度增强树模型以学习肝硬化高风险个体的代谢组学状态。进一步开发并验证了一种有效的列线图评分系统，该系统整合了代谢组学状态、人口统计学和实验室信息，以预测肝硬化并发症的个性化发病风险。

1. 为什么研究肝硬化长期并发症？

慢性肝病（CLD）是一个主要的公共卫生问题，其死亡率大部分是继发于肝硬化的并发症，如失代偿期肝硬化和HCC。如果正确实施精确预防和早期发现措施，肝脏疾病通常是可以避免和治的。然而，肝硬化的诊断通常是在个体出现不可逆的并发症后做出的，因为可逆的疾病阶段通常是被忽视的。

2. 为什么利用机器学习模型进行预测？

尽管一些常规风险评分，如AST与血小板（PLT）比值指数（APRI）和纤维化-4指数（FIB-4），显示出预测肝硬化并发症风险的潜在效用，但这些指数对一般人群的预测准确性不高，因为它们是为HCV感染患者的纤维化评估而设计的。

3. 为什么使用代谢组学数据？

在肝硬化并发症的风险预测中，代谢组学所包含的信息没有得到充分考虑，且血浆代谢组学数据测定方法成本不高，较为易于获得。

二、数据集

这里使用UKBiobank的NMR代谢组学数据，包含63917名女性和54095名男性。

纳入具有以下一项或多项CLD风险因素的参与者：（1）饮酒量超过14单位/周（英国推荐的健康饮酒阈值）;（2）腹部肥胖（男性腰围比> 1.0，女性腰围比>0.9）;（3）全身肥胖（BMI> 30）;和（4）2型糖尿病。

排除具有以下条件的参与者：（1）未进行NMR代谢组学测量的;（2）既往发生过肝硬化并发症事件的。

经纳排标准筛选后剩余64005名参与者根据所在10个招募中心以7：3分为训练和验证集。

Outcomes：与肝硬化相关的住院、死于肝硬化或表现为HCC。

Features：168种定量的代谢物；人口统计学特征；实验室指标（白蛋白、丙氨酸氨基转移酶、AST、总胆红素和PLT）；5个遗传位点（PNPLA3：rs738409-TM6SF2:rs58542926-MBOAT7:rs641738 GCKR:rs1260326-HSD17B13:rs72613567）的多基因风险评分（PRS）；常规评分APRI、FIB-4。

三、模型

1. 数据预处理

假设它们是随机缺失的，并使用随机森林的链式方程进行多重插补，然后依次进行自然对数变换（ln[x + 1]）和Z变换，以提高相关代谢物的正态性并消除维数的影响。

2. 特征选择

首先Elastic-Net 正则化Cox回归进行选择，它可以克服由高维预测因子（如组学数据）引起的过拟合和共线性，参数通过交叉验证选择α = 0.1和λ = 3.496×10-5。

选好的再通过bidirectional stepwise Cox回归选择。

经过特征重要性排序后最后剩余17个。

3. 代谢状态模型

基于Cox选择的代谢组学特征，应用XGBoost预测10年内与糖尿病相关的疾病发病风险，通过相关学习曲线和grid search以10倍交叉验证的方式优化超参数。类的不平衡通过XGBoost python包的scale_pos_weight参数来补偿。SHAP值解释代谢组学状态模型的内部贡献。再选出平均绝对SHAP值>0.15的，剩余8个。

4. 多变量CPH模型

为了比较代谢状态模型与其他常规predictors的预测性能，考虑一些predictors的组合，包括代谢组、人口统计学特征、实验室指标、PRS、APRI、FIB-4，为他们构建CPH模型进行比较。基于BIC（Bayesian Information Criterion）进一步选择保留的预测因子，使用BIC差异阈值6作为“强”证据。

5. 列线图模型

为了找到predictors的最佳组合，基于训练队列中最有价值的predictors（包括代谢组学状态Met、AST（U/L）、PLT（10^9个细胞/L）、腰/臀比WHR和吸烟状况Smoking）开发了代谢组学状态整合列线图模型，并在验证集上分析模型性能：

对最佳组合风险分层计算HR，进一步对具有表型和遗传风险的人群进行亚组分析，以评估模型的稳健性。

四、实验设计

1. 训练集代谢特征贡献分析

(A)代谢组学状态模型（XGBoost）的特征重要性图。训练集中的每个样本表示为每个特征的数据点。X轴为SHAP值，颜色反映特征值。(B)8个代谢特征的平均绝对SHAP值。

该模型的预测能力主要由中LDL中甘油三酯与总脂质的百分比（SHAP值0.55）、VLDL颗粒的平均直径（0.42）、ω-3脂肪酸与总脂肪酸的百分比（0.28）、多不饱和脂肪酸（PUFA）与单不饱和脂肪酸的比率（0.27）和甘氨酸（0.26）进行。

2. 训练集不同特征建模的模型AUC对比

(C)在训练集中，对代谢组学状态、代谢生物标志物、人口统计学因素、实验室指标、PRS-5、APRI和FIB-4进行训练的多变量考克斯比例风险模型的预测10年肝硬化并发症性能比较。(D)比较在训练集中predictors组合上训练的10年辨别性能。

C. 代谢组学状态模型Met(XGBoost)显示出比其他特征建模的模型更好的预测能力（Time dependent AUC 0.838）。

D. 以Met(XGBoost)为基线，加入不同特征后建模。只有人口统计学Demography和实验室指标Laboratory可以进一步改善性能，而其他组则失败（Time dependent AUC差异< 0.01）。

3. 验证集不同特征建模的模型AUC对比

(A)列线图A预测验证集中肝硬化并发症的3、5、10年风险。(B)列线图A的时间依赖性ROC曲线预测验证集中10年肝硬化并发症

列线图模型的10年预测能力明显优于其他4个模型。

4. 列线图模型校准

实际的10年肝硬化并发症生存率绘制在y轴上;列线图预测的概率绘制在x轴上。

校准曲线显示实际观察结果和列线图预测之间具有良好的一致性，训练和验证集的10年校准斜率分别为1.061，1.177。

5. 不同特征建模的模型决策曲线对比

（AB）x轴表示阈值概率，这是诊断确定性水平，高于该水平，参与者将选择接受治疗，y轴表示净受益，通过计算与每种建议的测试和治疗策略相关的预期受益和预期伤害之间的差异来确定。在阈值概率相同的情况下，较大的净收益意味着患者使用该模型的诊断可以获得最大的收益。决策曲线分析图中的曲线越接近顶部，模型诊断的价值越高。

决策曲线分析显示，列线图模型在两个数据集中几乎所有阈值上都优于APRI和FIB-4，并且这种建模方法使净临床获益最大化。

6. 列线图风险分层性能

(A) 列线图预测训练集中肝硬化并发症事件10年风险的敏感性和特异性。肝硬化并发症事件的累积发生率按双临界值（低风险，<144；中风险，144-169；高风险，≥169）分层，在训练（B）和验证（C）集中显示95% CI。

最终决定选择Sensitivity≥85%的阈值144作为Rule-out临界值，Specificity≥95%的阈值169作为Rule-in临界值，预测肝硬化并发症，准确度最高，不确定结果的比例相对较小。肝硬化并发症的HR随着风险增高逐渐增加。

Rule-out和Rule-in确认高风险参与者的总体准确率为93%。上述临界值在验证队列中表现稳定，总体准确度为94%。

五、总结

此研究评估了NMR衍生代谢组学作为肝硬化并发症风险个体化预测领域的潜力。基于8种循环代谢物生成并测试了代谢组学状态模型，与常规风险评分相比，该模型可以捕获更多实质性的预后信息。此外，一个可视化的列线图模型进行了开发和仔细验证，它结合了代谢组学状态，人口统计学，和实验室指标，在预测10年的肝硬化并发症的风险任务上具有很好的准确性和鲁棒性。