欢迎大家关注 微信公众号|计算生物前沿
Evo 2是一个革命性的生物学基础模型,由来自Arc Institute、英伟达、斯坦福大学、加州大学伯克利分校和加州大学旧金山分校的科学家们,联合发布。能够处理从DNA序列预测到基因组生成等多种任务,且不依赖于特定任务的微调。通过对9.3万亿DNA碱基对的学习,Evo 2能够在基因组、RNA、蛋白质等多个层面上准确预测基因变异的影响,助力科学家加速生物学创新。
团队称,Evo 2 是迄今为止最大的公开 AI 生物学模型,完整版高达400亿参数,包含12.8万个物种的9.3万亿个核苷酸。它囊括了生物学的基本语言:DNA、RNA 和蛋白质,能够一次分析长达一百万个核苷酸的序列长度。
引言
研究背景与现状:生物学的研究范围从分子到系统,DNA序列是所有生命体传递遗传信息的基础,但基因组内容和长度在不同生物间差异巨大。原核生物的基因组较为简单,而真核生物则具有复杂的基因组结构,包含大量非编码区域、可变剪接和表观基因组控制层次。当前机器学习和深度学习模型,特别是基于基因组序列的语言模型,能够帮助揭示DNA序列