这次分享的是发表在《Advanced Science》(IF 14.3)上的“Multimodal Machine Learning‐Based Marker Enables Early Detection and Prognosis Prediction for Hyperuricemia”,研究团队利用医院内部和公共数据库的样本数据,专注于高尿酸血症(HUA)的早期诊断和预后预测,开发了一种创新的堆叠式多模态机器学习模型,旨在实现对痛风的早期诊断和连续监测。
数据来源及研究思路
纳入了来自英国UKB数据库和中国南方医院健康体检数据集两个队列的参与者。从UKB数据库中337029名参与者中提取遗传和临床特征,训练多模态机器学习模型。分别以UKB数据库中84258名参与者和南方医院8900名参与者为内部测试组和外部测试组,来进行模型验证。
图1 研究设计
数据提取
临床数据:在UKB数据库中,通过应用特定的数据字段代码来搜集临床资料,而后通过逻辑回归和Cox比例风险回归模型分析,确定了性别、年龄、BMI、甘油三酯(TG)、胆固醇(CHO)、低密度脂蛋白胆固醇(LDL-C)、高密度脂蛋白胆固醇(HDL-C)、血糖(Glu)、血尿素氮和血清尿酸(sCr)等临床特征与HUA和痛风风险的显著关联。
遗传数据:从人体外周血中的单核细胞提取基因组DNA。在UKB内通过全基因组关联研究(GWAS)分析识别出的与血尿酸(SUA)水平有显著关联的单核苷酸多态性(SNP),以及先前文献中报道的与跨种族人群中SUA水平相关的SNP。通过对比两个数据集中的SNP信息,筛选出基因型数据。最终,确定了在两个数据集中均存在的38277个共同SNP。
两组数据集的基线特征
共有421287名来自UKB的参与者和8900名来自南方医院的参与者被纳入分析,UKB和南方医院队列的基线特征有所不同。来自UKB的参与者的 HUA患病率较低(12.91% vs 38.08%)。两个数据集在年龄、性别、BMI、SUA和其他代谢指标方面存在显著差异。
表1 UKB和南方医院队列的基线特征
堆叠ML模型在训练集中的表现
研究采用了LASSO分析筛选了遗传特征,将LASSO算法应用于训练样本中的38277个遗传变量,确定了用于识别HUA的最重要的遗传变量 (lambda.min)。lambda.min是通过五倍交叉验证获得最小均方误差时的 lambda。最终共利用1378个遗传特征和10个临床特征来构建模型。
图2 堆叠ML模型预测HUA的性能。
模型建立:
预测模型的开发是基于堆叠机器学习技术的多模态架构。该架构分为两个主要部分:基础模块和元模块。基础模块包含七个不同的基础分类器,包括LGBM、XGB、CAB、RF、ADB、LR和KNN,它们并行工作,独立对输入特征进行预测,并将结果聚合。这些聚合的预测概率随后被用作元模块中元分类器(XGB)的输入特征。元模块进一步处理这些聚合结果,以得出最终的预测结果。这种方法利用了集成学习的优势,通过结合多个分类器的预测来提高模型的准确性和泛化能力。
在训练集中,使用遗传特征预测HUA的堆叠模型的AUC为0.703,使用临床特征为0.822,使用遗传和临床特征组合为0.859。使用遗传和临床特征组合的堆叠模型预测HUA的准确度为0.736,灵敏度为0.828,特异性为0.723。研究结果表明,堆叠模型,其中包括遗传和临床特征,表现优于单个分类器。
内、外部评估:
在内部测试集和外部测试集中,结合遗传和临床特征的堆叠多模态模型的预测性能明显优于单独的遗传或临床模型。
在内部测试集中,堆叠多模态模型预测HUA的准确率为0.740,敏感度为0.775,特异度为0.734。
在外部测试集中,堆叠多模态模型模型预测HUA的准确率为0.7,敏感度为0.664,特异度为0.759。
ISHUA 的预后评估
堆叠多模态模型为每个参与者生成概率分数,即ISHUA值。ISHUA值范围从0(最低HUA概率)到1(最高HUA概率),预测与痛风和代谢相关结果相关的未来风险。
利用从堆叠多模态模型得出的HUA概率为UKB训练集中的参与者生成 ISHUA,并评估其预后意义。结果显示ISHUA与已知的HUA风险因素(年龄、性别、肥胖、血脂异常和高血糖)显著相关。ISHUA 随着年龄的增长、男性、肥胖、血脂异常和高血糖而增加。
图3 ISHUA与已知的高尿酸血症人口统计学、临床和遗传风险因素的关联
ISHUA 与代谢相关不良结局(尤其是痛风)的发生之间存在显著关联。在训练集中,ISHUA在预测痛风发病率方面表现出色,AUC为 0.815。为了检验ISHUA在预测痛风发生方面的普遍适用性,研究在UKB内部测试集中验证了该评分。ISHUA在内部测试集中保持了良好的预测性能,AUC 为 0.814。Kaplan-Meier生存曲线显示,在训练组和内部测试集中,高风险组发生痛风或其他代谢相关结局的风险明显更高。
图4 按高风险组和低风险组划分的训练集中发生事件结果的累积风险
高危人群的生活方式与不良后果之间的关系
分析了高危人群的生活方式类型与结果之间的关联,以探索良好的生活方式是否可以减轻痛风和其他代谢相关结果的风险。在训练集的高危组中,具有中等和良好生活方式的参与者的痛风风险比 (HR) 较低。
图5 生活方式对训练集中高风险组痛风和其他结果的影响
总结
本文采用了UKB数据库的训练集通过结合了大量遗传和临床数据样本构建了一种新型的多模态ML模型,其性能超过了个别单模态ML模型,提高了模型的预测准确性,同时应用UKB内部验证集和南方医院外部验证集两个队列进行模型验证,两个验证集的基线特征存在差异,但模型预测能力仍然较好,进一步提高了模型可信度。并且文章采用LASSO回归从38277个遗传变量中筛选出与HUA最相关的1378个遗传特征,排除噪声变量,简化模型,并提高了模型的预测精度。
对于有LASSO分析需求的小伙伴,不妨看看我们的EasyR网站(www.easyr.cc),无需下载软件,可在网页端直接操作。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。