随着人口老龄化程度越发严重,老年相关疾病和多病共存对医疗系统构成了重大挑战。而衰老又是大多数常见慢性疾病和死亡的主要决定因素。
传统的实际年龄测量虽然是衰老的强相关因素,但由于其存在着局限性,无法全面反映个体的生物老化程度。
近年来,通过组学数据来更精确地评估个体"生物学"衰老程度成为研究热点。牛津大学团队通过蛋白质组学的数据开发了一个能同时预测多种年龄相关疾病和死亡风险的标志物体系—蛋白质组衰老时钟(ProtAge),为理解衰老的分子机制提供了新的理论支持。
Proteomic aging clock predicts mortality and risk of common age-related diseases in diverse populations
文章解读
核心数据指标
血浆蛋白数据[3]、生物学衰老标志物[4]、26 种衰老相关疾病[5]和全因死亡率、虚弱指数[6]、身体和认知功能指标[7]等
研究设计思路
研究者采用了一个多队列验证的策略,纳入了分别来自三个国家的队列数据:
- UKB[8] ( n = 45,441)
-
女性占比:54.1%
-
年龄范围:39-71 岁
-
死亡率:10.6% ( n = 4,828)
- CKB[9] ( n = 3,977)
-
女性占比:53.7%
-
年龄范围:30-78岁
-
死亡率:35.9% ( n = 1,426)
- FinnGen[10] (n = 1,990)
-
女性占比:51.9%
-
年龄范围:19-78
-
死亡率:1.1% ( n = 22)
基于得到的样本特征,考虑到 UKB 队列涵盖了广泛的人口学和健康状态,因此将其作为模型的主要研究队列,而 CKB 和 FinnGen 则作为研究中的验证队列。
在处理 UKB 原始数据时,基于即便 Olink 蛋白质芯片的缺失率一般较低,但仍需对数据进行处理的考量,研究者采用了随机森林等方法对数据进行多重插补。
处理好的数据后,研究者根据 7:3 的比例将 UKB 队列随机分为训练集和测试集。其中训练集 31,808 人,测试集 13,633 人。
建模之前,研究者为了进一步提高数据质量,减少噪音和批次效应的影响,先对原始数据先做了必要的预处理,包括数据清洗、归一化、缺失值填补等。
为了可以在全蛋白组水平上搜寻与年龄相关的生物标志物,研究者使用了 Olink Explore 3072 蛋白质分析平台,先初步纳入了 2,897 种血浆蛋白质指标。
为了构建最好的蛋白质衰老模型,研究者通过通过系统的比较 6 种机器学习方法后,最终选择了 LightGBM(轻量级梯度提升机)[11] 作为主要建模工具。
-
LASSO(最小绝对收缩和选择算子)[12]
-
Elastic Net(弹性网络)[13]
-
LightGBM
-
MLP(多层感知机)[14]
-
ResNet(残差前馈网络)[15]
-
TabR(表格数据检索增强神经网络)[16]
这些算法各有特点,其中 LASSO 和 Elastic Net 都是正则化的线性回归模型,通过引入 L1 和 L2 惩罚项,可以实现特征选择和系数收缩,有助于防止过拟合。LASSO 更倾向于产生稀疏解,而 Elastic Net 则在特征高度相关时更稳定。
而 LightGBM 属于 Boosting 家族,通过迭代地构建和组合多个决策树,可以逐步优化和强化模型的预测能力。由于它在每次迭代中关注此前预测偏差较大的样本,因而对噪声和异常值更鲁棒。
至于 MLP 、ResNet 以及 TabR 这三种则属于神经网络模型,它们都能构建特征间的非线性关系,而其中 ResNet 和 TabR 还引入了更复杂的网络结构(如跳跃连接),以缓解梯度消失和过拟合问题。
通过独立、外部测试集以及多指标评估的方式,研究者发现 LightGBM 模型在 UKB 测试集上的表现仅次于 MLP ,但在两个独立验证集中表现最好。
所以尽管 MLP 在拟合训练数据方面可能更出色,但 LightGBM 的泛化能力[17]更强,能更好地适应新的人群和场景。因此,研究者最终选择它作为建模的首选算法。
模型优化方面,研究者还采用了 5 折交叉验证[18]、贝叶斯优化[19]和网格搜索[20]等方法,对 LightGBM 的超参数进行了系统调优,进一步提升模型的性能。
为了进一步筛选与年龄显著相关的蛋白质特征,研究者采用了 Boruta 特征选择算法[21]和基于 SHAP values(衡量每个特征对模型输出的影响)[22]的 RFE (递归特征消除)[23]方法。
基于先前筛选得到的 2,897 个蛋白质特征,研究者首先利用 Boruta 算法对其进一步筛选。通过引入随机生成与目标变量无关的特征,来自动识别哪些特征对模型有显著贡献,从而筛选出最相关的特征。
最后初步筛选出了 204 个与年龄显著相关的蛋白质,这不仅有效地减少了特征维度,并控制其假阳性率。
接着研究者在 Boruta 初筛的基础上,利用 RFE 迭代地移除贡献最小的特征,进一步优化了特征子集,RFE 最终确定了一个包含 20 个、按功能可分为 8 个主要类别的蛋白质的最小特征集,ProtAge20[24]。
-
细胞黏附和细胞外基质相互作用[25]
ELN(弹性蛋白)、COL6A3(6型胶原蛋白α3链)、CDCP1、PODXL2、LTBP2、SCARF2、ENG(内皮素) -
免疫应答和炎症[26]
CXCL17、LECT2、SCARF2、GDF15 -
激素调节和生殖[27]
FSHB、AGRP、ACRV1 -
细胞信号传导[28]EDA2R、SCARF2、PTPRR
-
蛋白酶活性和酶功能[29]
KLK3、KLK7 -
体重和能量平衡调节[30]
GDF15、AGRP -
神经元结构和功能[31]
GFAP、NEFL -
发育和分化[32]
EDA2R、LTBP2、ENG
为进一步全面评估 ProtAge20 的性能,研究者们还使用 UKB 独立测试集和外部验证集中进行了一系列分析,其中结果表明,该模型在所有队列中都表现出很高的年龄预测精度:
-
UKB:R² = 0.88,r = 0.94
-
CKB:R² = 0.82,r = 0.92
-
FinnGen:R² = 0.87,r = 0.94
ProtAge 模型在多个独立队列上都展现了出色的年龄预测性能,这 20 个蛋白质能够捕捉完整模型中约 95% 的年龄变异。这个结果证明了 ProtAge20 作为衰老生物标志物的高可信度,表明其在衰老相关研究和疾病预测中具有重要的应用潜力。
为了更全面全面评估蛋白质衰老模型的性能,研究者基于 ProtAge 导出了一个衰老风险度量指标,**ProtAgeGap(蛋白质预测年龄与实际年龄之差)**,去计算它与各种衰老表型和疾病风险的关联。
通俗来说,对于一个 60 岁的人,如果根据其血浆蛋白质水平预测的 ProtAge 为 50 岁,则其 ProtAgeGap 为 -10 岁(50 - 60 = -10),对于一个 60 岁的人,如果根据其血浆蛋白质水平预测的 ProtAge 为 50 岁,则其 ProtAgeGap 为 -10 岁(50 - 60 = -10),这意味着这个人的生物学衰老速度比其实际年龄要慢 10 年,生物学上“比实际年龄年轻”。
ProtAgeGap 的概念类似于表观遗传学领域的DNA甲基化年龄加速[33],但区别在于使用的是蛋白质组学标志物,它提供了一种衡量个体生物学衰老状态的新视角。
研究者基于得到的 ProtAgeGap 使用线性回归分析了 ProtAgeGap 与一系列已知的生物学衰老标志物之间的关联,包括端粒[34]长度、胰岛素样生长因子 1(IGF-1)[35]、C 反应蛋白[36]、白蛋白、肌酐、胱抑素 C [37]等,
-
每增加一个标准差的 ProtAgeGap,端粒长度平均缩短 0.02 个标准差(β = -0.02,FDR < 0.0001)
-
每增加一个标准差的 ProtAgeGap,IGF-1 水平降低 0.05 个标准差(β = -0.05,FDR < 0.0001)
这些结果说明了 ProtAgeGap 所捕捉到的衰老信号与机体多个系统的功能下降密切相关,这都支持其作为一个综合性衰老生物标志物的潜力。
研究者还对没有慢性病史的健康亚组进行了分析,评估 ProtAgeGap 与生物学衰老标志物之间的关联。
结果发现即使在没有任何慢性疾病历史的健康亚组中,大多数关联仍然显著,这表明 ProtAgeGap 不仅与疾病状态相关,还是与个体内在的生物学衰老过程紧密相连的一个重要指标。
这说明了即使在没有慢性病的健康个体中也能够观察到 ProtAgeGap 的相关性,也进一步支持了它作为生物学衰老的标志物,可以反映出独立于疾病的衰老进程。
研究者还通过线性回归和 Logistic 回归 分析了 ProtAgeGap 与体能和认知功能的关系。分析结果表明,ProtAgeGap 每增加一个标准差,与以下几个体能和健康指标显著相关:
-
左手握力(作为肌肉力量的代表):平均下降 0.03 个标准差(β = -0.03,FDR < 0.0001)。这表明,随着 ProtAgeGap 的增加,左手握力逐渐减弱
-
肺活量:平均下降 0.05 个标准差(β = -0.05,FDR < 0.0001)。这反映出生物学年龄较高的个体在肺功能方面也可能存在一定的下降
-
报告"差"健康状况的比率:比率显著上升(OR = 1.12,FDR < 0.0001)。这表明,随着 ProtAgeGap 的增加,个体自评健康状况为"差"的可能性增加,进一步验证了 ProtAgeGap 与衰老过程的关联
这些结果表明 ProtAgeGap 能够有效地捕捉衰老过程中的身体机能退化,尤其是在肌肉、肺、认知等多个系统中。这些发现与已有的衰老研究结果一致,让 ProtAgeGap 作为一个可靠的衰老生物标志物的可靠性更高。
同样,在无慢性病亚组中,大部分关联仍具有统计学显著性,尽管效应强度有所下降。这进一步支持了 ProtAgeGap 作为一个独立于疾病状态的衰老标志物,而不仅仅局限于慢性病患者。
在 Table 1 中,研究者列出了各队列的基线特征,包括人口学指标和主要慢性病的患病例数:
-
糖尿病:UKB 中有 2,781 例,CKB 中有 160 例
-
缺血性心脏病:UKB 中有 4,546 例,CKB 中有 2,121 例。
-
脑卒中:UKB 中有 1,362 例,CKB 中有 566 例
研究者基于基线特征中的慢性病的患病情况,使用了 Cox 比例风险模型,在控制了年龄、性别、社会经济地位、生活方式等已知风险因素后,评估了 ProtAgeGap 对多种慢性病和死亡风险的预测作用。
-
ProtAgeGap 与所有疾病的发病率呈正相关,即 ProtAgeGap 每增加一个标准差,相关疾病的发病率会增加
-
对于一些关键疾病,如阿尔茨海默症和慢性肾病,ProtAgeGap 的预测作用尤其突出。生理年龄每增加一岁,患病风险增加约 16%(HR = 1.16,95% CI: 1.12-1.20)
研究者还对 ProtAgeGap 进行了分层分析,发现 ProtAgeGap 最高 10% 组的疾病发病率远高于最低 10% 组。
这表明 ProtAgeGap 能有效区分高风险和低风险人群,有力地证明了 ProtAgeGap 对多种慢性病和死亡的预测价值,表明其所反映的衰老过程可能是这些健康不良事件的共同风险因素。
为了保证结果的可信度,研究者还采用了一系列敏感性分析,在从不吸烟者和正常 BMI 人群中,ProtAgeGap 的预测效应仍然显著。这也说明其预测作用并非由吸烟和肥胖等已知风险因素所驱动,而可能反映了一些更本质的衰老机制。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。