2025年2月19日,Arc研究所、英伟达、斯坦福大学、加州大学伯克利分校和加州大学旧金山分校近50位研究人员发布了迄今为止生物学领域最大的AI模型——Evo 2。
本次分享 Evo 2的使用、简介、及其背后的故事。
Evo 2的使用
Evo 2简直是生物领域的DeepSeek,Evo 2完全开源训练数据、训练与推理代码以及模型权重。
- Evo 2 preprint文章:https://arcinstitute.org/manuscripts/Evo2
- Evo 2 代码开源:https://github.com/ArcInstitute/evo2
- Evo 2预训练数据开源在HuggingFace上:https://huggingface.co/datasets/arcinstitute/opengenome2
- Evo 2在线使用:https://build.nvidia.com/arc/evo2-40b
- Evo 2本地使用:Evo 2 基于 StripedHyena 2 构建,需要 Python ≥ 3.11。Evo 2 在某些层使用 Transformer Engine FP8,这要求使用 H100(或计算能力 ≥ 8.9 的其他 GPU)。
# clone and install from GitHub
git clone --recurse-submodules git@github.com:ArcInstitute/evo2.git
cd evo2
pip install .
# check that the installation was correct by running a test.
python ./test/test_evo2.py --model_name evo2_7b
Evo 2简介
1 Evo 2的两个版本:
- 较小版本配备 70 亿参数,并在 2.4 万亿个核苷酸(构成 DNA 或 RNA 的基本单元)上完成训练。
- 完整版本拥有 400 亿参数,并在 9.3 万亿个核苷酸(构成 DNA 或 RNA 的基本单元)上进行了训练。
2 Evo 2训练数据:来自12.8 万个全基因组以及宏基因组数据,这些数据来自细菌、古菌、噬菌体、人类、植物以及真核生命域中其他单细胞和多细胞物种(Evo 1的训练数据仅包含单细胞基因组数据数据)。
3 Evo 2训练:Evo 2 利用 2000 多块 NVIDIA H100 GPU 进行了数月的训练,并采用了全新的 StripedHyena 2 架构。相比优化后的 Transformer 模型,StripedHyena 2 将训练速度提升了近三倍,同时大幅扩展了 Evo 2 的上下文窗口,使其能够处理长达 100 万个核苷酸的基因序列,从而理解基因组中远距离区域之间的关系。
4 Evo 2作用:
作为基因组基础模型,Evo 2 具备生成完整基因组、预测突变及解析非编码 DNA 的能力,可广泛应用于生物分子研究、精准医学、药物研发和合成生物学等领域,推动科学与医疗的创新发展。
- 检测基因变异,有助于揭示人类疾病的遗传原因并加速新药开发,节省运行细胞或动物实验所需的大量时间和研究经费。例如,Evo 2在检测与乳腺癌相关的 BRCA1 基因突变时,在预测哪些突变是benign还是likely pathogenic方面的准确率超过 90%。
-
开发副作用更少的靶向生物工具或疗法,例如,“如果你想让基因疗法仅在神经元中激活以避免副作用,或仅在肝细胞中生效。”
-
Evo 2 从根本上推进了我们对生物系统的理解。
-
最强的,“你可以把这个Evo 2模型大致想象成一个操作系统内核,上面可以构建各种不同的应用。从预测单个 DNA 突变如何影响蛋白质功能,到设计在不同细胞类型中表现不同的遗传元件,随着我们不断优化模型,研究人员开始以创新方式使用它。”
正文介绍到这里.....
Evo 2背后的故事
简单介绍一下Arc研究所。
Arc 研究所是一家位于加利福尼亚州的独立非营利研究机构,致力于加速科学进展并深入解析复杂疾病的根本成因。Arc 采用创新研究模式,为科学家提供完全的自由,以探索基于好奇心的研究方向,同时促进深度的跨学科合作。
Two founders of the Arc Institute.
提起 Arc 研究所和这两位科学家,许多人或许不太熟悉,但 2022 年学术圈流传的那段浪漫爱情故事,你不会没听说吧:某名校女 PI 的亿万富翁未婚夫为她慷慨捐款 5 亿美元,让她从此摆脱项目申请的烦恼,还能招募 150 名科学家潜心科研!
女PI为Silvana Konermann,麻省理工学院(MIT)神经科学博士,曾在CRISPR大佬张锋实验室工作。
Patrick Collison 是亿万富翁未婚夫,堪称全球最年轻的白手起家亿万富翁之一。他 20 岁从麻省理工学院辍学,创立科技公司 Stripe,马斯克是其早期投资人之一。如今,Stripe 在全球拥有数千名员工。
Arc 研究所的另一位创始人 Patrick Hsu 于 2010 年从加州大学伯克利分校获得分子与细胞生物学学士学位,随后在哈佛大学先后取得生物学硕士学位和生物化学博士学位,仅用一年完成博士学业。作为张锋的第一届研究生,他为 CRISPR-Cas9 技术的早期研发做出了重要贡献。
2021年12月,Patrick Hsu 携手好友 Patrick Collison 和 Silvana Konermann 创立了 Arc 研究所。这所资金充裕、崇尚科学自由的机构,孕育出 Evo 2 这样的成果也就不足为奇了。
顺便提一句,Evo 2是Evo 1的升级版,Evo 1的训练数据仅包含单细胞基因组数据数据,2024年Evo 1的结果见Science的封面文章DOI: 10.1126/science.ado9336
下期见~