这篇题为《GeneCompass: deciphering universal gene regulatory mechanisms with a knowledge-informed cross-species foundation model》的文章,介绍了一种名为GeneCompass的新模型,该模型通过整合人类和小鼠的大规模单细胞转录组数据,并结合生物学先验知识,来解码跨物种的基因调控机制。
介绍与背景
该研究解决了生物学中的一个重要挑战——理解不同物种之间一致的基因调控机制。传统方法通常集中于单一模式生物,难以推广研究成果。然而,单细胞测序和深度学习技术的进步,为跨物种全面分析基因调控提供了新的机会。
GeneCompass旨在填补这一空白,利用来自人类和小鼠的超过1.2亿单细胞转录组数据,结合深度学习技术(尤其是Transformer架构),以自监督的方式处理这些庞大的数据。这使得模型无需手动标注数据,即可学习基因表达和调控中的模式。
GeneCompass的主要特点
-
跨物种整合:GeneCompass能够处理来自多种物种的数据,主要是人类和小鼠细胞。它通过使用同源基因,并利用人类Ensembl ID进行整合,使得研究结果可以在物种间推广。
-
知识驱动的训练:在预训练过程中,GeneCompass结合了四种生物学先验知识:启动子序列、基因共表达网络、基因家族信息,以及转录因子与靶基因的调控关系。这帮助模型更好地理解基因之间的相互作用和调控机制。
-
自监督学习:通过掩码语言建模的方法,GeneCompass学习预测缺失的基因信息,从而增强其理解复杂基因关系的能力。这种策略类似于GPT等模型通过预测缺失词汇来学习语言的方式。
结果与应用
研究展示了GeneCompass在多种生物研究中的应用:
-
基因调控机制分析:GeneCompass能够识别基因间的调控关系,甚至跨物种。例如,它成功地识别了人类和小鼠细胞中保守的基因交互,验证了其跨物种学习能力。
-
细胞类型注释:GeneCompass在细胞类型注释方面表现出色,超越了现有的方法(如Geneformer和scGPT),特别是在同时使用人类和小鼠数据进行训练时。在跨物种任务(如使用小鼠数据注释人类视网膜数据)中,GeneCompass也表现出强大的能力。
-
基因扰动与细胞命运预测:该模型能够预测基因敲除或过表达对细胞状态的影响,模拟实验条件。这包括预测转录因子敲除的效果,并与已知的生物学结果一致。它还可以识别细胞命运转换中的关键因素,例如人类胚胎干细胞(ESCs)分化为生殖祖细胞的过程中,预测出关键调控基因。
-
药物反应预测:GeneCompass能够预测不同药物剂量对基因表达的变化,这对于药物研发和精确医学具有重要价值。其预测结果与实验数据高度一致,有助于筛选潜在的药物靶点或了解药物机制。
模型架构与训练
- 数据预处理:作者收集了大量数据,筛选出高质量的细胞,保留了超过1亿单细胞转录组。模型使用基于人类和小鼠同源基因的数据字典。
- Transformer架构:GeneCompass使用了一个12层的Transformer模型,通过自注意力机制来编码基因间的关系,特别适合处理大规模的转录组数据。
- 预训练策略:GeneCompass采用了预测基因ID和表达值的双目标学习方法。这种策略允许模型更好地捕捉基因调控网络中的关系。
讨论与未来展望
研究强调,GeneCompass在利用人工智能研究基因调控方面取得了重要进展。通过整合大规模的跨物种数据和生物学先验知识,模型比之前的方法更全面地理解了基因调控机制。
然而,作者也指出了一些局限性:
- 当前模型仅包含人类和小鼠数据,未来可以通过引入其他物种的数据来进一步提升模型的泛化能力。
- 将其他生物学数据(如蛋白质序列和表观基因组信息)融入模型可能会进一步增强其能力。
作者认为,未来这种基础模型与实验生物学相结合的方式,可能会创造新的研究范式,加速基因调控、疾病机制和治疗靶点等方面的发现。
结论
GeneCompass是一个强大的工具,用于理解跨物种的基因调控机制。通过整合大规模转录组数据和先验知识,它成为基础和应用研究的宝贵资源。该模型在细胞命运预测、药物反应分析和基因调控方面的应用,展现了推动我们理解生物过程和改善临床应用的新途径。