背景知识
骨关节炎(OA)是一种慢性退行性关节疾病,全球约有5.28亿人患病,且患病率自1990年至2019年间增加了48%,预计随着人口老龄化和肥胖率的增加,患病率将进一步上升。OA对患者生活质量和医疗保健支出有重大影响,目前尚无批准的治疗方法能够预防OA的发展和进展或治愈该疾病,主要治疗方式为缓解症状,部分患者最终需要关节置换手术。因此,识别有助于疾病预防和早期诊断的策略,以促进疾病修饰疗法的开发显得尤为重要。
研究方法
研究者从英国生物样本库中识别出103,086名OA患者和相等数量的从未发展为OA的对照参与者。通过电子健康记录(EHR)、临床生物标志物、自我报告问卷数据、基因组学、蛋白质组学和代谢组学等多模态患者数据,开发了一个基于XGBoost机器学习模型来预测个体五年内发展为OA的风险。该模型整合了临床、社会人口学、饮食、体力活动和生活方式数据,以及五年纵向EHR数据中的诊断、血液和尿液生物标志物、临床测量和肥胖、OA、2型糖尿病的药物数据。
实验结果
• 模型性能:XGBoost模型在预测OA风险上表现出色,交叉验证ROC-AUC性能为0.72(95%CI:0.71-0.73),能够预测出70%最终发展为OA的患者,且模型预测为OA病例中有66%为真阳性。
• 风险生物标志物:通过Shapley additive explanations(SHAP)值计算,发现年龄较大、BMI较高、非甾体抗炎药(NSAIDs)的处方是增加OA风险预测的前三大因素。此外,个人健康评级、手握力、身体组成和步行速度等也被识别为OA风险的预测因素。
• OA风险亚组:研究者通过聚类SHAP值,识别出14个OA风险亚组,并在独立患者组中验证了这些亚组,88%的患者被唯一地分配到其中一个亚组。这些亚组通过个性化生物标志物进行特征描述,展示了不同生物标志物特征的OA风险预测原型。
• 多组学OA风险生物标志物:研究还整合了基因组学、代谢组学和蛋白质组学数据,虽然这些数据的加入并未提高模型的整体性能,但影响了OA风险生物标志物的排名。例如,全基因组多基因风险评分(WGPRS)在模型中是第六大预测风险特征,而在基因位点水平上,TGFB1、GDF5等基因的遗传风险评分被模型高度排名。
关键结论
• 该研究通过大规模的OA患者队列,利用可解释的机器学习方法,开发了一个预测个体五年内发展为OA风险的模型,并识别了不同的OA风险亚组。
• 研究不仅确认了已知的OA风险生物标志物,如年龄和BMI,还发现了其他非传统考虑的生物标志物,如个人健康评级、手握力等,这强调了OA发病机制的异质性。
• 通过聚类方法,研究者能够为这些亚组推导出简单的临床关联规则,这可能有助于临床医生和患者简单评估属于OA高风险群体的可能性,以及进行OA诊断评估的需求。
• 研究还展示了如何通过个体患者数据来识别OA的风险生物标志物,这可能为开发个性化预防策略提供机会。
• 尽管组学数据的整合并未提高模型的整体预测性能,但它改变了风险生物标志物的排名,并突出了对OA疾病预测重要的生物学途径,这可能有助于指导更具体的OA预防策略。
研究意义
这项研究为早期筛查、预防和治疗OA提供了新的视角,通过识别个性化可修改的风险生物标志物,为定制化的OA预防策略提供了可能,有助于减少疾病的发病率和进展。