2025年2月19日,由Arc Institute、英伟达、斯坦福大学、加州大学伯克利分校和加州大学旧金山分校的顶尖科学家联合发布了革命性生物学大模型——Evo 2。该模型不仅通过AI的强大能力深入理解基因组学的复杂性,还突破性地实现了对基因变异的精准预测与基因组序列的生成,标志着生物学研究迈向新的时代。通过结合9.3万亿个DNA碱基对的训练数据和创新的StrippedHyena 2架构,Evo 2能够提供跨物种的基因变异比较,为生命科学领域带来了前所未有的研究潜力和应用前景。
文章链接:Manuscript | Arc Institute
图片来源于文章
研究背景
生物复杂性与基因组学:所有生命形式都通过 DNA 编码信息。尽管基因组测序、合成和编辑技术已经极大地推动了生物学研究,但要智能地设计新的生物系统,还需要对基因组编码的复杂性有深刻的理解。
人工智能在生物学中的应用:近年来,人工智能(AI)的进步为从大规模数据中发现复杂模式提供了新的框架。Evo 2 是一个基于 AI 的生物基础模型,它通过学习来自所有生命领域的基因组数据来预测基因变异的功能影响,并生成新的基因组序列。
Evo 2 模型介绍
数据集:Evo 2 使用了一个高度策划的基因组图谱进行训练,包含来自细菌、古菌、真核生物和噬菌体的 9.3 万亿个 DNA 碱基对。
模型规模:Evo 2 有两个版本,分别有 70 亿和 400 亿参数,能够处理长达 100 万个碱基对的上下文窗口。
架构:Evo 2 使用了 StripedHyena 2 架构,这是一种新的卷积混合架构,结合了输入依赖的卷积和注意力机制,提高了训练效率和性能。
Evo 2 的功能
预测基因变异的影响:Evo 2 能够准确预测基因变异对蛋白质功能、RNA 功能和生物体适应性的影响,无需针对特定任务进行微调。在预测非编码变异的致病性方面,Evo 2 达到了新的高度,尤其是在 BRCA1 基因变异的分类中表现出色。Evo 2 还能够预测人类临床变异的致病性,包括编码和非编码区域的变异。