论文地址:Plasma proteomic profiles predict individual future health risk - PMC (nih.gov)
项目地址:GitHub - jasonHKU0907/FutureHealthProteomicPrediction
一、论文概述
对人类疾病的全面风险评估往往需要对潜在的风险因素进行严格的积累,并且只能针对单一的疾病进行。然而收集疾病相关信息涉及的时间及成本巨大,阻碍了最终的风险评分在临床中的应用。因此,需要一种可以同时对多种疾病风险预测的方法。
许多国家建议通过常规血液检查预防一些常见疾病,因此结合蛋白组学的风险评分将会有助于多种疾病的风险预测。但目前大多蛋白组学的研究都是以横断面方式进行的,其中一些研究利用病例对照方法了解某些疾病的患病和健康人群蛋白组差异。虽然病例对照方法的信息丰富,但纵向设计,估计与疾病发病率相关的早期分子特征更适合于风险分层,从而识别高风险个体和疾病预防。
文章构建了一个神经网络模型预测蛋白组学风险评分(ProRS),用于45种疾病,包括感染、血液、内分泌、精神、神经、感观、循环、呼吸、消化、皮肤、肌肉骨骼、泌尿生殖系统疾病、癌症和死亡。并将ProRS纳入COX比例风险回归建模这45种疾病的个体风险,同时与临床预测因子进行了预测性能比较。此外,还研究了共享蛋白组学谱和蛋白组学在临床中的可用性。
二、数据集
1.特征(plasma proteomics data + clinical predictor panel)
特征由两部分组成,血浆蛋白数据和临床数据。
(1) 蛋白数据
UK Biobank 中的血浆蛋白组学数据共包含52705名参与者的样本,2021年4月到2022年1月测序的1463种蛋白数据。在排除了具有超过50%缺失值的蛋白后,剩余1461个蛋白用于这项研究。排除具有超过30%蛋白数据确实的样本后,剩余52006个参与者数据。
(2) 临床数据
共采用了54个临床变量作为特征的一部分。由5个基本信息(年龄性别等),6个生活习惯信息(饮食吸烟等),7个身体指标测量结果(血压等),4个家族病史记录,和25个血清数据组成。
2.结局(Endpoints)
此研究共纳入了45个疾病作为结局,包含14种疾病类别,26种特定疾病,全因死亡,和4种指定原因的死亡。结局提取自UKB category 2401-2417 首次发生数据,而这些数据映射自初次治疗(category 3000)、住院(category 2000)、自述的医疗状况(UKB field 20002)、死亡登记记录(field 40001和40002)。
三、模型
1. ProNNet
此研究设计的模型ProNNet由两部分组成,(1)粗略评估总体健康状况的预训练共病网络(Comorbid network)和(2)单一疾病预测的网络模型(Endpoint-specified network)
共病网络针对14个疾病类别设计,用以粗略估计个体健康状况的整体水平。架构基于MLP且包含左右两个分支,都是由四个全连接层构成,维度分别为512、256、128和64。input均是1461个蛋白数据,左侧output是预测的基线评估之前的疾病类别个数,右侧output是预测的基线评估之后的疾病类别个数,即学习过去和将来分别有多少疾病类别被索引。
共病网络经过预训练,最后层的权重被传递到后续的Endpoint-specified network中,它与共病网络的前四层结构相同,权重传递到具有相同维度的全连接层时连接。再经过两个全连接层后通过sigmoid函数输出特定疾病的风险概率,并将其作为蛋白风险评分(ProRS)。此网络是针对所有45种结局的。
共病网络的损失函数采用均方误差,且两个分支权重相等;Endpoint-specified network采用对数损失作为损失函数。两个网络均使用Adam训练,学习率1e-5,batch设定为128,epoch设定1000。
2. CPH regression
这里使用不同的临床预测因子的组合构建CPH(Cox proportional hazard)模型,即ProRS、年龄+性别、25个血清指标、54个临床指标、ProRS+54个临床指标,这样5种组合,探索和对比预测性能。CPH模型是基于Python使用lifelines包(v0.27.4)中的CoxPHFitter实现的。
四、实验设计
1. ProRS与实际发生率分层对比
将所有样本按照性别、年龄阶段分层,女性为红色男性为蓝色,散点直径越大年龄越大,分析在不同分层下预测的ProRS评分与实际结局发生率之间的关系。
2. ProRS水平与结局出现时间的关系
针对每个结局分析患者随访年数与生存率的关系,绘制Kaplan-Meier生存曲线。按ProRS评分划分三分位数作为ProRS的高中低三个水平,阴影为95%置信区间。
1.1 Kaplan-Meier 生存曲线
每个结局发生的时间点上计算生存率,每个发生删失的时间点上用竖线标记删失样本。
是在时刻之后未发生结局事件的人数,是时刻~之间发生结局事件的人数。在时间点处的生存率为:
1.2 Greenwood置信区间
生存率的标准误差可以近似计算为:
3. ProRS预测性能及其与结合临床指标对比
这里使用Harrell's C-index衡量预测性能,C-index表示预测结果与实际观察到的结果相一致的概率。ProRS、Age+Sex、Serum、PANEL、ProRS+PANEL表示5中特征组合:ProRS、年龄+性别、25个血清指标、54个临床指标、ProRS+54个临床指标,进行结局预测的性能估计。
森林图部分以ProRS的C-index为基准(绿色),蓝色为仅用标识的临床指标,红色为标识的临床+蛋白作为特征。C-index是通过R包CompareC实现的。
3.1 Harrell's C-index
把所有研究样本两两组对,n个样本产生个对子。
有用对子:两个样本均达到了观察重点。
一致对子:有用对子中,实际结局发生时间与预测结果相同的一组样本。
C-index = 一致对子数 / 有用对子数
C-index取值在0.5~1,取值0.5说明模型的预测完全随机,取值1说明模型的预测能力完全准确。一般0.5~0.7为较低准确度,0.7~0.9为中等准确度,高于0.9为高准确度。
4. 蛋白对14个疾病分类的预测价值-SHAP
这里展示了最重要的前1%的蛋白对14种疾病类别和全因死亡预测结果的贡献度,和该蛋白具有显著预测能力的结局数量(堆叠的柱形顶部数字)。前1%蛋白为在两种或更多种疾病中表现出最重要的预测价值(最高的SHAP值)。蛋白i对疾病d的Stacked SHAP值为此蛋白的SHAP值除以所有1461个蛋白的SHAP值总和:
4.1 SHAP
在使用机器学习模型进行结局预测时,SHAP值用于解释每个特征对结局的影响。SHAP全称为SHapley Additive exPlanation,即构建一个加性的可解释模型,将每个特征都视为结局的“贡献者”,对于每个样本的每个特征,此模型都为其分配一个贡献值-SHAP值,所有特征的贡献值加和组成了此样本的SHAP值。若某特征的SHAP值大于0,则说明该特征对于结局的发生有促进作用,反之,则说明该特征具有反向抑制作用。
5. 蛋白与所有45个结局关联-生存分析
此实验结合随访数据进行生存分析,计算前1%蛋白(SHAP值筛选出的)与所有45个结局之间的HR值,用于观察每组蛋白-结局间的关联效应量和方向,从而确定哪些蛋白影响了结局发生的速度。红色表示蛋白与结局间的正向关系(结局发生更快),蓝色表示负向关系,颜色越深效应量越大。*表示多重比较检验校正后的显著相关性(p-value < 6.84×10−6 = 0.01/1461)
这里的HR(Hazard Ratio)风险比,是由Age+Sex校正的COX比例风险模型计算得来的,表示结合某一种蛋白时结局发生的概率与不含此蛋白的比值。
6. 蛋白对癌症和痴呆的预测价值-SHAP
图中第二圈展示的是在通过实验5针对Cancer和Dementia预选的显著蛋白(*),此图绘制的是每个蛋白的SHAP值图像,其中SHAP值排序前1%的蛋白加粗展示在最外圈,表示对结局的发生具有最大的贡献量。
SHAP图像中红色代表蛋白对结局的促进作用,蓝色表示抑制作用,并且条带越长表示促进/抑制作用能力越强。
7. 模型预测性能评价
五种特征的组合方式下,COX比例风险模型预测的结局发生风险与实际观测到的风险之间的曲线。荧光绿的对角线为参考线,即预测值与实际值完全等同,在参考线以下时高估了风险,在参考下以上则为低估了风险。
8. ProRS的临床可用性评价-DCA
这里使用DCA(Decision Curve Analysis)分析不同模型在不同的决策阈值上进行临床决策的患者收益与损失的权衡。横坐标表示临床决策的患病概率阈值,纵坐标净收益表示在某一阈值决策下,患者的收益与损失的差值。其中灰色直线表示对所有患者都施加干预,红色区域表示ProRS与只用临床特征相比的获益。
DCA原理:
当患者有症状但还未确诊时,医生必须进行决策是否进行进一步检查或治疗,而由于假阳性的存在,对假阳性患者施以干预会使得患者的损失>收益,所以希望找到一个合适的Threshold probability,当患者患病的概率>阈值时,施加干预。DCA通过分析患者的收益及损失评估临床决策是否可行。
五、总结
1. 贡献
(1)文章的分析数据强调了血浆蛋白组学作为单一来源、个性化健康检查工具的预测价值,降低了先前工作中收集多维数据的成本。(2)对于几乎所有的结局,ProRS的预测性能都比传统临床变量好得多或相当,并且将ProRS与临床变量结合并没有比单独使用ProRS更具优势。(3)一些蛋白如GDF15,对多种疾病的相关方向高度一致,因此对已确定的共享途径进行干预会以一致的方式提供益处,而不会增加患其他疾病的风险。
2. 局限
(1)一些蛋白没有包含在Olink中但具有对多种疾病的预测能力,可能被忽略了。(2)UKB中疾病的发生率可能低于其他的队列。(3)UKB中的参与者大多是白人和欧洲人,需要多民族的外部验证。