随着基础模型(FMs)的应用,人工智能(AI)在生物信息学领域的重要性日益凸显,并且成功攻克了诸多长期存在的难题,例如预训练框架、模型评估以及可解释性等问题。基础模型在处理大规模未标记数据集方面展现出卓越的能力,这是因为生物实验流程往往成本高昂且耗费大量人力。在各类下游任务中,基础模型始终能取得优异成果,在表征生物实体时表现出高度的准确性。基础模型的应用开启了计算生物学的新纪元,其研究范畴涵盖了一般性和特定性的生物学问题。这篇综述(中南大学Jianxin Wang)将介绍生物信息学基础模型的最新进展,这些模型已被应用于多种下游任务,包括基因组学、转录组学、蛋白质组学、药物研发以及单细胞分析。该综述旨在介绍语言基础模型、视觉基础模型、图基础模型和多模态基础模型这四种类型,帮助科学家在生物信息学领域选择合适的FM。
来自:Foundation models in bioinformatics, National Science Review, 2025
背景概述
基础模型在海量数据集上进行广泛的预训练,从而能够应用于各种下游任务。在基础模型出现之前,大多数人工智能系统采用更为传统的方法构建,这些方法严重依赖明确的人为设计和预定义规则,而非直接从数据中学习。预训练模型(PTMs,Pre-Trained Models)的出现从根本上改变了人工智能的格局。目前,该领域正经历一场范式转变,这是由在广泛数据集上训练的模型推动的,这些模型可应用于各种下游应用。随着计算能力的提升和数据可用性的增加,在四个关键领域正在取得重大突破:有效架构的设计、丰富上下文信息的利用、计算效率的提高以及可解释性分析的执行。
与预训练架构类似,许多大规模基础模型被分为四种不同类型的人工智能模型,包括语言基础模型(Transformer为主)、视觉基础模型(CNN或Transformer为主)、图基础模型(GNN为主)和多模态基础模型(Transformer为主)。
近来,许多基础模型已成功应用于生物信息学问题。该综述的目的是对生物信息学基础模型进行分析,这些模型既可以通过监督学习训练,也能通过无监督学习训练,以应用于核心生物学问题和综合性生物学问题等领域。图1展示了利用几种著名的基础模型来更深入地理解高通量生物数据,随后还将讨论预测模型和生成模型在生物信息学的各种下游任务中是如何应用的。
这篇综述对生物信息学基础模型的三个主要目标提出了见解:
- 作者介绍了生物信息学基础模型作为通用工具的最新改进。通过聚焦语言基础模型、视觉基础模型、图基础模型和多模态基础模型这四类基础模型,全面阐述生物信息学的应用。
- 作者研究了生物信息学基础模型在基因组学、转录组学、蛋白质组学、药物研发和单细胞分析这五个下游任务中的应用。讨论集中在生物数据库、训练策略、超参数规模以及生物学应用等方面。
- 作者结合在模型预训练框架、基准选择、模型可解释性以及模型幻觉评估等方面的经验,探讨对生物信息学基础模型发展前景的看法。 (幻觉:生成偏离事实的数据;毒性:生成不符合道德伦理的言论)
- 图1:生物信息中的基础模型。