集合UKB、LASSO分析、AI预测模型，高分文章没跑了|文献解读

最新推荐文章于 2025-04-17 23:01:59 发布

程序员笑武

最新推荐文章于 2025-04-17 23:01:59 发布

阅读量929

点赞数 9

文章标签：人工智能 transformer 深度学习 sql 数据库

本文链接：https://blog.csdn.net/m0_59164304/article/details/144728702

版权

这次分享的是发表在《Advanced Science》（IF 14.3）上的“Multimodal Machine Learning‐Based Marker Enables Early Detection and Prognosis Prediction for Hyperuricemia”，研究团队利用医院内部和公共数据库的样本数据，专注于高尿酸血症（HUA）的早期诊断和预后预测，开发了一种创新的堆叠式多模态机器学习模型，旨在实现对痛风的早期诊断和连续监测。

数据来源及研究思路

纳入了来自英国UKB数据库和中国南方医院健康体检数据集两个队列的参与者。从UKB数据库中337029名参与者中提取遗传和临床特征，训练多模态机器学习模型。分别以UKB数据库中84258名参与者和南方医院8900名参与者为内部测试组和外部测试组，来进行模型验证。

图1 研究设计

数据提取

临床数据：在UKB数据库中，通过应用特定的数据字段代码来搜集临床资料，而后通过逻辑回归和Cox比例风险回归模型分析，确定了性别、年龄、BMI、甘油三酯（TG）、胆固醇（CHO）、低密度脂蛋白胆固醇（LDL-C）、高密度脂蛋白胆固醇（HDL-C）、血糖（Glu）、血尿素氮和血清尿酸（sCr）等临床特征与HUA和痛风风险的显著关联。

遗传数据：从人体外周血中的单核细胞提取基因组DNA。在UKB内通过全基因组关联研究（GWAS）分析识别出的与血尿酸（SUA）水平有显著关联的单核苷酸多态性（SNP），以及先前文献中报道的与跨种族人群中SUA水平相关的SNP。通过对比两个数据集中的SNP信息，筛选出基因型数据。最终，确定了在两个数据集中均存在的38277个共同SNP。

两组数据集的基线特征

共有421287名来自UKB的参与者和8900名来自南方医院的参与者被纳入分析，UKB和南方医院队列的基线特征有所不同。来自UKB的参与者的 HUA患病率较低（12.91% vs 38.08%）。两个数据集在年龄、性别、BMI、SUA和其他代谢指标方面存在显著差异。

表1 UKB和南方医院队列的基线特征

堆叠ML模型在训练集中的表现

研究采用了LASSO分析筛选了遗传特征，将LASSO算法应用于训练样本中的38277个遗传变量，确定了用于识别HUA的最重要的遗传变量 (lambda.min)。lambda.min是通过五倍交叉验证获得最小均方误差时的 lambda。最终共利用1378个遗传特征和10个临床特征来构建模型。

图2 堆叠ML模型预测HUA的性能。

模型建立：

预测模型的开发是基于堆叠机器学习技术的多模态架构。该架构分为两个主要部分：基础模块和元模块。基础模块包含七个不同的基础分类器，包括LGBM、XGB、CAB、RF、ADB、LR和KNN，它们并行工作，独立对输入特征进行预测，并将结果聚合。这些聚合的预测概率随后被用作元模块中元分类器（XGB）的输入特征。元模块进一步处理这些聚合结果，以得出最终的预测结果。这种方法利用了集成学习的优势，通过结合多个分类器的预测来提高模型的准确性和泛化能力。

在训练集中，使用遗传特征预测HUA的堆叠模型的AUC为0.703，使用临床特征为0.822，使用遗传和临床特征组合为0.859。使用遗传和临床特征组合的堆叠模型预测HUA的准确度为0.736，灵敏度为0.828，特异性为0.723。研究结果表明，堆叠模型，其中包括遗传和临床特征，表现优于单个分类器。

内、外部评估：

在内部测试集和外部测试集中，结合遗传和临床特征的堆叠多模态模型的预测性能明显优于单独的遗传或临床模型。

在内部测试集中，堆叠多模态模型预测HUA的准确率为0.740，敏感度为0.775，特异度为0.734。

在外部测试集中，堆叠多模态模型模型预测HUA的准确率为0.7，敏感度为0.664，特异度为0.759。

ISHUA 的预后评估

堆叠多模态模型为每个参与者生成概率分数，即ISHUA值。ISHUA值范围从0（最低HUA概率）到1（最高HUA概率），预测与痛风和代谢相关结果相关的未来风险。

利用从堆叠多模态模型得出的HUA概率为UKB训练集中的参与者生成 ISHUA，并评估其预后意义。结果显示ISHUA与已知的HUA风险因素（年龄、性别、肥胖、血脂异常和高血糖）显著相关。ISHUA 随着年龄的增长、男性、肥胖、血脂异常和高血糖而增加。

图3 ISHUA与已知的高尿酸血症人口统计学、临床和遗传风险因素的关联

ISHUA 与代谢相关不良结局（尤其是痛风）的发生之间存在显著关联。在训练集中，ISHUA在预测痛风发病率方面表现出色，AUC为 0.815。为了检验ISHUA在预测痛风发生方面的普遍适用性，研究在UKB内部测试集中验证了该评分。ISHUA在内部测试集中保持了良好的预测性能，AUC 为 0.814。Kaplan-Meier生存曲线显示，在训练组和内部测试集中，高风险组发生痛风或其他代谢相关结局的风险明显更高。

图4 按高风险组和低风险组划分的训练集中发生事件结果的累积风险

高危人群的生活方式与不良后果之间的关系

分析了高危人群的生活方式类型与结果之间的关联，以探索良好的生活方式是否可以减轻痛风和其他代谢相关结果的风险。在训练集的高危组中，具有中等和良好生活方式的参与者的痛风风险比 (HR) 较低。

图5 生活方式对训练集中高风险组痛风和其他结果的影响

总结

本文采用了UKB数据库的训练集通过结合了大量遗传和临床数据样本构建了一种新型的多模态ML模型，其性能超过了个别单模态ML模型，提高了模型的预测准确性，同时应用UKB内部验证集和南方医院外部验证集两个队列进行模型验证，两个验证集的基线特征存在差异，但模型预测能力仍然较好，进一步提高了模型可信度。并且文章采用LASSO回归从38277个遗传变量中筛选出与HUA最相关的1378个遗传特征，排除噪声变量，简化模型，并提高了模型的预测精度。

对于有LASSO分析需求的小伙伴，不妨看看我们的EasyR网站（www.easyr.cc），无需下载软件，可在网页端直接操作。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述