人工智能如何彻底改变蛋白质科学,AlphaFold是起点,终点会在哪里?

bdd4ac7105afc1c758038bf55f014fe4.jpeg

来源:ScienceAI

编辑:ScienceAI

三年前,谷歌 DeepMind 的 AlphaFold 取得了迄今为止科学领域最大的人工智能突破,加速了分子研究,并引发了关于我们为什么要进行科学研究的深层次问题。

2020 年 12 月,数百名计算科学家聚集在屏幕前,见证科学新时代的到来。

他们聚集在一起参加会议,这是一场友好的竞赛,其中有一些人已经参加了近三十年,他们聚在一起,痴迷于同一个问题——蛋白质折叠问题,说起来很简单:他们能否根据最基本的信息——一维分子代码,准确预测蛋白质分子的三维形状?

蛋白质让我们的细胞和身体保持活力。蛋白质的形状决定了它的行为,成功解决这个问题将对我们理解疾病、生产新药和洞察生命如何运作产生深远影响。

在每隔一年的会议上,科学家们对他们最新的蛋白质折叠工具进行测试。但解决方案总是遥不可及。

那一周,蛋白质科学界的一位名叫 John Jumper 的新人展示了一款新的人工智能工具 AlphaFold2,该工具来自谷歌 DeepMind。通过 Zoom,他展示了数据,表明 AlphaFold2 的 3D 蛋白质结构预测模型准确率超过 90%,比其最接近的竞争对手高出五倍。

一瞬间,蛋白质折叠问题从不可能变为轻松。人工智能在人类思维陷入困境的地方取得成功,震惊了生物学家界。「我很震惊。」参加会议的哥伦比亚大学数学基因组学项目的系统生物学家 Mohammed AlQuraishi 说,「很多人都拒绝接受。」

但在会议的总结发言中,会议组织者 John Moult 毫不怀疑:AlphaFold2「在很大程度上解决了」蛋白质折叠问题,并永远改变了蛋白质科学。「这不是结束,而是开始。」他说。

026b7052afab3e5a95f5a3c4b066072f.jpeg

蛋白质是具有数亿种不同形状的分子。每种蛋白质都具有特定的生物功能,从通过血液输送氧气到引发化学反应。功能通常由其形状或结构定义。

当谷歌将这一消息大肆传播到世界各地时,媒体都疯狂了。头条新闻声称 AlphaFold2「将改变一切」。那些一生都在研究单一蛋白质结构的蛋白质生物学家担心自己会丢掉工作。

一些人声称 AlphaFold2 将彻底改变药物开发;现在生物学家可以快速了解蛋白质的形状,他们可以创造针对这些蛋白质的新药物。其他人则反驳说,这些结果大多是炒作,不会带来什么改变。

AlphaFold2 无疑改变了生物学家研究蛋白质的方式。然而,虽然 AlphaFold2 是一个强大的预测工具,但它并不是一台无所不知的机器。它非常巧妙地解决了蛋白质折叠问题的一部分,但方式与科学家不同。它并没有取代生物实验,而是强调了生物实验的必要性。

AlphaFold2 最大的影响或许是引起了生物学家对人工智能力量的关注。它已经启发了新的算法,包括设计自然界中不存在的新蛋白质的算法;新的生物技术公司;以及实践科学的新方法。它的新版本 AlphaFold3 于 2024 年 5 月发布,通过对蛋白质结构与 DNA 或 RNA 等其他分子的组合进行建模,已进入生物预测的下一阶段。

「这是有史以来最大的『科学机器学习』故事。」AlQuraishi 说。

然而,人工智能仍未填补巨大的空白。这些工具无法模拟蛋白质随时间的变化,也无法在它们存在的环境中对其进行建模:在细胞内。「AlphaFold 改变了一切,又什么也没改变。」在劳伦斯伯克利国家实验室开发生物分子结构建模算法的结构生物学家 Paul Adams 说。

这是 Jumper 在 Google DeepMind 团队如何在蛋白质科学领域取得成功的故事,以及这对生物学人工智能的未来意味着什么。

7202957801c0b5a086edf0f91e2c5a59.jpeg

第一部分 从X 射线晶体学到CASP

提出问题

一长串氨基酸分子在自发折叠成其固有形状之前没有任何功能,生物学家称之为其结构。蛋白质的结构决定了它如何与其他分子结合或相互作用,从而决定了它在细胞中的作用。

ee41a8efe3751027f0f2965a15d7fe1a.jpeg

地球上已知蛋白质有几亿种,还有许多未知蛋白质。它们无所不能:血红蛋白和肌红蛋白在肌肉和身体中运送氧气。角蛋白为头发、指甲和皮肤提供结构。胰岛素使葡萄糖进入细胞并转化为能量。蛋白质可以呈现无数种形状,以匹配它们在生命中似乎无数种的工作。

「从原子一直到生态系统,[蛋白质结构] 是一种通用语言,」AlQuraishi 说。「一切都在这里发生。」

细胞通过将称为氨基酸的小分子雏菊状链连接成长肽链来制造蛋白质。它选择的氨基酸取决于 DNA 提供给它的一组底层指令。在产生后的几分之一秒内,多肽链会精确地弯曲、扣紧和折叠成蛋白质的最终三维形状。一旦离开分子装配线,它就会进行其生物学工作。

如果蛋白质不能很好地完成折叠过程,身体就会发生一系列灾难。错误折叠或解开的蛋白质会导致毒性和细胞死亡。许多疾病和病症,如镰状细胞性贫血,都是由错误折叠的蛋白质引起的。错误折叠的蛋白质会聚集成团块,这是阿尔茨海默氏症和帕金森氏症等神经退行性疾病的标志。

然而,没有人真正知道蛋白质折叠的具体过程。这些简单分子链中的序列信息如何编码蛋白质的复杂形状?这是「我们可以提出的最深刻的问题」,约翰霍普金斯大学名誉生物物理学教授 George Rose 说。

e0e8eae6754e4962ef72ce371292e4bb.jpeg

20 世纪 50 年代,生物化学家 Christian Anfinsen 进行了实验,结果表明氨基酸链中含有一个内部密码,告诉它如何折叠成蛋白质,并且应该有一种方法可以根据该密码预测蛋白质的形状。这一假设被称为安芬森法则。

早在 20 世纪 30 年代,科学家就开始探究这个问题。但真正开始研究是在 20 世纪 50 年代中期,当时生物化学 Christian Anfinsen 将蛋白质添加到化学溶液中,这些溶液要么通过破坏蛋白质的键而使其展开,要么使其折叠错误。

然后他观察了它们的下一步反应。Anfinsen 发现,未折叠或错误折叠的蛋白质可以自发地重新折叠成正确的结构。他的发现后来为他赢得了诺贝尔奖,证明了蛋白质的三维形状是由内部代码形成的——由氨基酸链编写的代码。

因此,Anfinsen 假设应该有一种方法可以根据蛋白质的氨基酸序列预测其形状。这被称为蛋白质折叠问题。

一旦多肽链组装完成,蛋白质可以在千分之一秒内折叠成其结构——这个时间尺度让分子生物学家 Cyrus Levinthal 感到困惑。Levinthal 在 1969 年的论文《How to Fold Graciously》中计算出,如果蛋白质尝试所有可能的折叠方式,则需要很长时间才能组装完成。显然,他沉思道,一定有某种东西更直接地将蛋白质引导到正确的折叠路径上。

随着时间的推移,蛋白质折叠问题已经分化成新的问题。现在提出了三个主要问题:可以根据蛋白质的氨基酸序列预测其结构吗?折叠代码是什么?折叠机制是什么?

这些问题在 20 世纪 60 年代初开始深入科学家的大脑,当时第一批通过实验确定的蛋白质结构已经面世。剑桥大学的两位生物学家 Max Perutz 和 John Kendrew 将蛋白质培养成晶体,用 X 射线轰击它们,并测量射线的弯曲程度——这项技术被称为 X 射线晶体学。通过这种方式,他们确定了血红蛋白和肌红蛋白的 3D 结构。他们花了二十多年的时间。他们因这项发现共同获得了诺贝尔奖。

13046794f2c750142bd1d6c55c0b0e12.jpeg

John Kendrew (左) and Max Perutz (右) 利用 X 射线晶体学细致地揭示了血红蛋白和肌红蛋白的结构。然后他们用球(原子)和棍子(化学键)建立了物理模型。

从那时起,无数研究人员不仅努力了解不同蛋白质的外观,还努力了解它们是如何形成这些外观的。格拉斯哥大学结构生物学家 Helen Walden 说:「想知道事物的外观是人之常情,因为这样你才能了解它们的功能。」

一些人研究问题的化学性质,另一些人研究物理学。实验人员通过艰苦的实验室工作重建蛋白质形状。计算生物学家通过模型和模拟寻找线索,他们使用不同的算法规则组合对其进行编程和重新编程。

随着更多结构的出现,蛋白质科学界需要一种组织和共享它们的方法。1971 年,蛋白质数据库作为蛋白质结构档案馆成立。该数据库免费开放,成为任何需要了解蛋白质结构以探究生物学问题的人的可靠工具。

蛋白质数据库开放时,它保存了七种蛋白质的结构。近 50 年后,当 Google DeepMind 用它来训练 AlphaFold2 时,它已经存储了超过 140,000 个数据,每一个都由结构生物学家辛苦地解码。

实验者的痛苦

从 20 世纪 70 年代中期开始,每隔几个月,Janet Thornton 就会收到一个包裹。里面是一盘 12 英寸的磁带,里面有存放在蛋白质数据库中的新蛋白质结构的数据。作为牛津大学的一名生物物理学家,Thornton 会急切地撕开包裹,这样她就可以在发现新结构后立即对其进行分析。Thornton 收到的第一盘磁带上只有 20 个结构。

521c0e093d961ba40bf8688b670305fa.jpeg

「我有许多学生说,『我想来解决这个问题。』」去年从欧洲分子生物学实验室退休的结构生物学家 Janet Thornton 说,「但坦率地说,我对如何做到这一点没有任何新的想法。」

这些蛋白质中的每一个都代表着多年的工作。博士生通常会在研究生院花费四年或更长时间结晶单个蛋白质,从中收集数据或解释这些数据以找出折叠结构。

牛津大学的生物物理系当时是世界上 X 射线晶体学的中心之一。1965 年,蛋白质晶体学的先驱之一 David Phillips 在那里首次确定了一种酶的结构:溶菌酶,免疫系统利用它攻击细菌。利用 X 射线晶体学,牛津生物物理学家绘制了蛋白质电子密度图;电子聚集的区域很可能包含一个原子。Thornton 和她的同事将这些电子密度图打印到塑料片上,并将它们一张叠一张地堆叠起来,以创建蛋白质地理分布的「等高线图」,她说。

487aa8848c459ee06630272d0c258533.jpeg

X 射线晶体学帮助科学家绘制电子密度图,该图可以直观地显示电子聚集的位置,从而显示原子在分子中可能的位置。通过将这些图堆叠在一起(左图),科学家可以推断出蛋白质或其他分子(如青霉素)的结构(右图)。

然后,他们把地图转换成物理模型。他们将塑料地图放入一个 Richards 中,这个盒子以 1968 年发明该设备的牛津生物物理学家 Frederic Richards 的名字命名。在 Richards 盒内,一面有角度的镜子将地图反射到工作区,让科学家们能够准确地看到每个原子相对于其他原子的位置。然后,他们用球和棍子建造了物理模型。

这种方法既繁琐又有限制。1971 年,后来成为著名晶体学家的 Louise Johnson 正在模拟磷酸化酶,这种酶有 842 个氨基酸,是当时人们研究过的最大的蛋白质。为了模拟它,Johnson 必须爬上梯子进入一个两层的 Richards 盒,这是牛津大学专门为她的项目建造的。

模型完成后,科学家们用尺子测量原子之间的距离,得出蛋白质结构的坐标。「这是过时的。」Thornton 说。然后他们将坐标输入计算机。她说,计算机版本看起来像一片茂密的森林,原子杂乱地聚集在一起。只有当 Thornton 通过 3D 眼镜观察结构时,她才能开始看到蛋白质的拓扑结构。

「这是一个非常痛苦的过程,」Thornton 说。「它完成了,真是太神奇了。」

0d5343af073d65159a01648f945afc6c.jpeg

经过一年又一年的艰苦努力,他们终于做到了。一旦研究人员对自己的蛋白质结构充满信心,他们就会将其提交给蛋白质数据库。到 1984 年,已有 152 种蛋白质被存放。1992 年,这一数字攀升至 747 种。

当实验人员努力建立物理模型时,另一派蛋白质生物学家——计算科学家——采取了不同的方法。但是,当他们思考安芬森的见解(即蛋白质的结构应该可以从其氨基酸序列中预测出来)时,他们有点过于自信了。

制定自己的规则

20 世纪 60 年代初,John Moult 还是一名本科生,他计划成为一名物理学家。然后他了解了蛋白质折叠问题。

毕业后,Moult 进入了蛋白质晶体学领域。他破译了几种蛋白质的结构,包括 β-内酰胺酶,一种能破坏青霉素的细菌酶,并于 1970 年在牛津大学获得分子生物物理学博士学位。

但当他开始博士后研究时,他厌倦了实验主义的方法,开始转向日益发展的蛋白质计算领域。与实验主义者相反,计算生物学家编写计算机算法来试图证明安芬森是对的:他们可以给程序输入一串氨基酸来生成正确的蛋白质结构。

85be392008337edba54adfbdc0c6feb5.jpeg

John Moult 共同创立了结构预测关键评估 (CASP) 实验,以迫使他自己和其他计算生物学家根据实验确定的蛋白质结构测试他们的蛋白质计算机模型。

从生物实验到计算的转变并不容易。Moult 习惯于缓慢而细致地解决单个蛋白质结构问题。在他的新领域,计算论文经常声称已经解决了蛋白质折叠问题和相关的子问题。

Moult 对此表示怀疑。「该领域发表的东西并不像我以前所习惯的那么严谨,」他说。「这并不是因为我们都是这个领域的骗子。而是因为如果你在做这种计算工作,你是在虚拟世界中做的。」

在虚拟世界中,当自然世界的规则不起作用时,计算学家会编写自己的规则。他们设计自己的算法,使原子以某种方式粘在一起,或者蛋白质总是向右或向左折叠。随着时间的推移,模型离现实越来越远。Moult 说,在一个你完全掌控的世界里,很难保持严谨。

不过,他能看到双方的价值。实验主义者工作精确但缓慢;计算学家的工作速度很快,但与生物物理现实相差甚远,因此经常出错。

他认为,一定有办法将两种方法的优点结合起来。

「比赛」开始

20 世纪 90 年代初,Moult 和他的同事 Krzysztof Fidelis 想出了一个办法,让该领域的混乱局面变得规范起来。他们建立了一个社区科学实验,他们称之为结构预测关键评估 (CASP)。

这个想法很简单。作为 CASP 的组织者,Moult 和 Fidelis 将发布一份蛋白质氨基酸序列列表,这些蛋白质的结构已被实验者解决并提供给他们,但结果尚未公布。然后,世界各地的计算小组将尽力使用他们想要的任何方法来预测蛋白质的结构。一个独立的科学家小组将通过将他们的答案与实验证实的结构进行比较来评估模型。

这个想法开始流行起来。CASP 很快成为蛋白质折叠问题计算方法的试验场。那是人工智能出现之前的日子,当时计算方法涉及模拟分子物理。这是科学家们在与同行的公开审判中检验他们的想法的机会。「这本来不应该是一场比赛,」Thornton 说。「但实际上它变成了一场比赛。」

c1d4778a41f79498de2940af05c18b4b.jpeg

早期的 CASP 会议在加州蒙特利的阿西洛玛会议中心举行。

有一年,伦敦大学学院的生物信息学教授 David Jones 和同事们提出了一种称为线程的计算方法,其中氨基酸序列通过已知的蛋白质结构编织在一起以寻找匹配。他们做得还不错。「我们非常高兴。……之后一切都走下坡路了。」Jones 笑着回忆道,「不,很有趣。」

帕多瓦大学生物信息学教授 Silvio Tosatto 说,当时人们非常兴奋。「人们认为他们可以成为百万富翁,因为他们拥有正确的算法,而其他人则认为他们会立即获得诺贝尔奖。」

这两件事在早期都没有发生。当被问及当时 CASP 的提交情况如何时,Moult  停顿了一下。「『随机』是个好词。」他说。

有些方法表现得比预期更好,比如「同源性建模」,它通过比较已知蛋白质的结构来推断未知蛋白质的结构。其他方法则一无所获。大多数结构预测都是「看起来很痛苦的物体」,Moult  说。

「我喜欢看到他们失败。」荷兰癌症研究所和乌得勒支大学(Utrecht University)的结构生物学家 Anastassis Perrakis 开玩笑说,他将实验确定的结构提供给 CASP 组织者用于比赛,「这不是竞争,但我们喜欢在科学上互相取笑。」

1996 年,第二届 CASP 结束后,一个名叫 David Baker 的年轻人邀请 Jones 一起乘出租车去机场。Baker 看过 Jones 的演讲,正在研究自己的计算模型。他还没有为这次 CASP 做好准备,但他想聊聊。Jones 在出租车里听了他的想法,从没想过会再见到他。

在 1998 年举行的下一场比赛中,Baker 用他的算法 Rosetta 一鸣惊人。Jones 说,他成为了「最难打败的人」。

ac2f97dc4d1429c354baa4f8caa8321f.jpeg

David Baker 是当今世界领先的蛋白质设计专家之一,他凭借高性能算法 Rosetta 在 CASP 上脱颖而出。

像 Rosetta 这样的算法模拟了氨基酸分子原子之间的相互作用,以预测它们将如何折叠。它们「表明你实际上可以预测蛋白质结构,」Baker 说。「但它不够好,也不够准确,无法发挥作用。」

2008 年,人类仍在击败计算机。当时已经在华盛顿大学经营自己的实验室的 Baker 创建了一款名为 Foldit 的免费在线电脑游戏,玩家可以在游戏中将氨基酸串折叠成蛋白质结构。在《自然》杂志发表的一篇论文中,他的团队报告说,人类 Foldit 玩家在蛋白质建模方面的表现优于 Rosetta。

但人类的领先优势并没有持续多久。在 21 世纪 10 年代初,共同进化这一概念的重要突破推动了该领域的发展,后来被证明对人工智能至关重要。

这个想法已经存在了几十年,很简单:通过比较数百到数千种蛋白质中密切相关的氨基酸序列,科学家可以识别出发生突变的氨基酸——而且重要的是,确定它们是否与其他氨基酸同步突变。如果两种氨基酸同时发生变化,那么它们很可能以某种方式联系在一起。

「你可以开始说,『好吧,这两个东西在空间上可能很接近。』」伯克利实验室的结构生物学家 Adams 说。

60696079d9f11853ee41a88402f78e3a.jpeg

但直到 21 世纪 10 年代初,这种预测哪些氨基酸接触的预测结果都很差。准确率徘徊在 20% 到 24% 之间。

后来,科学家们注意到,他们的统计方法引入了错误,表明有些氨基酸接触了,但实际上并没有。后来,Moult 了解到,统计学家几十年来一直敏锐地意识到这种错误。他说,当你回头看时,你会想,「我怎么会这么笨?」

计算生物学家清理了统计工具。到 2016 年,接触预测的准确率已飙升至 47%。两年后,这一数字达到了 70%。Baker 的算法建立在这一成功的基础上:2014 年,Rosetta 产生了两种蛋白质结构,其准确率如此之高,以至于一位 CASP 评估员认为 Baker 可能已经解决了蛋白质折叠问题。

Adams 说,共同进化的见解「太棒了」。在没有使用机器学习的情况下,共同进化是「真正推动该领域向前发展的重大事件之一」。

然而,它在该领域的进展有限。共同进化需要大量相似的蛋白质进行比较,而实验人员解决蛋白质结构的速度不够快,无法满足计算人员的需求。

Moult  用进化生物学的一个术语说,这些年在间断平衡中流逝。有时感觉好像十亿年来都没有出现过好的想法——然后就会发生一些令人兴奋的事情。

4c72186345ef1bfcbdc1fda9c2139ff7.jpeg

第二部分 当AI进入蛋白质世界

跳出深渊

2016 年,David Jones 在《自然》杂志发表的一篇新论文中看到了未来。来自伦敦人工智能团队 Google DeepMind 的研究人员详细介绍了他们的算法如何利用一种称为深度学习的方法在古老的棋盘游戏围棋中击败人类冠军。

Jones 惊讶不已。「事情正在发生,」他回忆起当时的想法。「我真的要深入研究这种深度学习。」

深度学习是一种人工智能,大致受到人类大脑的启发。在你的大脑中,分子信息通过一个称为神经元的相互连接的脑细胞网络发送。神经元有称为树突的小臂,它们可以抓住邻近神经元发送的分子,这些分子会告诉接收神经元是发射并传播信号还是不发射。

「如果该神经元有足够的活动,那么该神经元就会发射,」布朗大学计算机科学教授 Michael Littman 说。这会导致另一波分子被释放到下一个神经元。

20 世纪 50 年代,计算机科学家意识到他们可以将电子比特连接在一起以创建「神经网络」。神经网络中的每个单元都是一个节点,研究人员将其比作一个神经元:一个神经元从其他神经元接收信息,然后计算是否向下一个神经元发射。在神经网络中,信息在多层神经元之间传播以产生特定的结果,例如在图像中识别狗。

137906a848d40b62e25429714c25ca6b.jpeg

神经元层越多,可以执行的计算就越复杂。但早期的神经网络只有两层。在 20 世纪 90 年代,这个数字增加到三层,并且保持了 20 年。「我们无法弄清楚如何可靠地创建比这更深的网络。」Littman 说。

包括 Jones 和 Moult 在内的结构生物学家自 20 世纪 90 年代以来就尝试在蛋白质科学中使用神经网络,但浅层网络和稀疏数据的局限性阻碍了他们的发展。

然后,在 21 世纪 10 年代初,计算机科学家学会了如何更好地构建神经网络,以便可靠地训练更多层。网络加深到 20、50、100 甚至数千层。「为了将其与 90 年代的做法区分开来,人们开始称之为『深度学习』。」Littman 说。

深度学习改变了人工智能,催生出擅长识别照片或声音特征的算法,而且,事实证明,这些算法还能在游戏中击败人类。

2016 年 3 月,当 DeepMind 联合创始人 Demis Hassabis 在首尔观看他的人工智能系统 AlphaGo 在古老的围棋游戏中击败人类世界冠军时,他回想起了自己本科时玩 Foldit 的情景。

他想:如果 DeepMind 的研究人员可以编写一种算法来模仿围棋大师的直觉,那么他们是否不能编写一种算法来模仿 Foldit 游戏玩家的直觉呢?这些玩家对生物学一无所知,但可以折叠蛋白质。

5a5a30a091f5af33beef54cdb81afa5f.jpeg

2016 年,谷歌 DeepMind 的人工智能系统 AlphaGo 击败了围棋世界冠军李世石(右)。它模仿人类直觉的能力引起了生物学家对深度学习在蛋白质科学中的潜在力量的关注。

芝加哥丰田计算技术研究所许锦波教授也认识到了利用深度学习解决蛋白质折叠问题的潜力。他受到了这些网络在图像识别中所起作用的启发。

那时,计算机科学家已经在卷积网络方面取得了巨大成功,卷积网络可以编写深度学习算法将图像分解成碎片并识别它们之间的模态。

许锦波将这种技术应用于蛋白质折叠。他使用一种称为矩阵的数学对象来表示哪些氨基酸在空间上靠得很近,然后将数据作为图像输入卷积网络。该算法在这些图像中寻找模式,以预测组成蛋白质的原子的 3D 坐标。

2016 年,许锦波在 arXiv 上发布了一项研究的预印本(后来发表在 PLOS Computational Biology 上),Moult 说,这项研究「对该领域影响很大」。它向人们展示了「深度学习可以做的事情」。

adfa3fb4e2be458b70c6c924ad9663d6.jpeg

论文链接:https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1005324

不久之后,蛋白质结构研究小组开始涉足深度学习。AlQuraishi 和他的团队率先开发出一种可以直接使用神经网络预测蛋白质结构的方法,即所谓的「端到端」方法——但效果并不好。其他人想知道他们如何才能尝试这种意义重大的新方法。

「我不知道我到底想用深度学习做什么,但我意识到我需要做深度学习,」Jones 说。

当 Jones 收到谷歌 DeepMind 的电子邮件时,他已经开始写资助申请了。他们向 Jones 询问了 CASP 竞赛的情况,并提供帮助。「我只是认为他们的意思是:我们拥有强大的计算机能力,」Jones 说。

与他们会面后,他发现谷歌的野心更大。但要实现这些目标,这家科技巨头需要更多的科学人才。

「球场上的新球员」

2016 年,当 Jones 开始担任谷歌 DeepMind 的顾问,负责后来被称为 AlphaFold 的项目时,John Jumper 正在芝加哥大学攻读理论化学博士学位。

十几岁时,Jumper 自学了计算机编程。他还擅长物理。因此到了上大学的时候,他决定学习数学和物理。

「我一直以为自己会成为一名『宇宙法则』物理学家。」Jumper 说道,「我一直很喜欢这种探索宇宙真谛的想法。」

在范德堡大学读本科时,他与费米国家加速器实验室的研究人员合作,研究亚原子粒子夸克的奇异性质。有一天,当他和研究人员坐在一起吃午餐时,他得到了一些坏消息。

「我们正在进行的这项实验——什么时候能启动呢?」Jumper 回忆起当时问他们的话。其中一位教授说他可能会先退休。另一位年纪稍大一些的教授说他可能活不到那一天了。

01a9e637592e793a8cd8b57fa0ee92f4.jpeg

John Jumper 本科学习的是物理和数学,后来从事蛋白质计算机模拟工作。这些经历让他后来领导了 Google DeepMind 的 AlphaFold 项目。

「我想在更短的时间内完成科学研究。」Jumper 说。本科毕业后,他开始攻读理论凝聚态物理学博士学位,但很快就退学了。他去了纽约一家公司 D.E. Shaw Research 工作,该公司当时正在创建蛋白质的基本模拟。通过了解蛋白质如何移动和变化,他们希望更好地了解肺癌等各种疾病的机制。

这是 Jumper 第一次意识到自己工作的潜在意义。「这关乎健康,也关乎延长人们的寿命。」他说。在接下来的三年里,Jumper 在公司的超级计算机上模拟蛋白质运动,这些计算机是他们专门为更快地模拟分子而制造的。「我在某些星期的周二进行的模拟比我整个博士学位期间进行的模拟还要多。」他说。

2011 年,他再次尝试读研究生,这次是在芝加哥大学学习理论化学。他仍然对蛋白质结构和运动感兴趣。但他对学术界的缓慢发展感到沮丧。

「我再也无法使用他在 D.E. Shaw 使用的定制计算机硬件了。」Jumper 说。他想知道自己是否能利用人工智能——「当时我们称之为统计物理学」——达到快速模拟的水平,否则就需要先进的机器。他开始涉足机器学习和神经网络。

在此期间,他还开始思考蛋白质折叠问题。他猜测,这个问题应该可以利用蛋白质数据库中的训练数据来解决——截至 2012 年,该数据库中已包含超过 76,000 种蛋白质结构。

「我相信数据足够了。」Jumper 说,但「想法不够。」

2017 年,Jumper 听到传闻称谷歌 DeepMind 将进军蛋白质结构预测领域。当时,他刚刚完成博士学位,正在利用机器学习模拟蛋白质折叠和动力学。他申请了一份研究科学家的工作。

那时,「该项目仍处于保密状态。」他说。如果在采访中提到蛋白质折叠的话题,DeepMind 团队就会转移话题。「你只能做这么多次,然后我才能确定你在做什么。」Jumper 说。

d30e24e648f7b04258d26c8e1fe309b2.jpeg

Google DeepMind 总部位于伦敦。

2017 年 10 月,他来到 DeepMind 的伦敦办公室。在 Jones 担任顾问时,团队已经深入开发了 AlphaFold。「那是一段非常有趣的时光,我们只是随心所欲地提出各种想法。」 Jones 说,「最终,一个很好的核心想法出现了,他们就把它付诸实施。」

为了训练他们的算法,DeepMind 团队使用了来自蛋白质数据库的 140,000 多个结构。他们将这些信息输入卷积网络,但对 AI 架构本身没有做太多改变。Jumper 说,这是「标准的机器学习」。

到 2018 年春天,AlphaFold 准备加入 CASP,与真正的蛋白质科学家竞争。「这有点像一级方程式赛车(F1)。」Jones 回忆道。「你认为你造出了最好的车,但你不知道其他团队造了什么。」赌注似乎很高。DeepMind 团队争论是否应该匿名参赛;他们不想冒被羞辱的风险。

「没人想失败。」Jones 说。在学术界,这是工作的一部分;你失败了,但你别无选择。「但显然,如果你是一家价值数十亿美元的科技公司,如果你尝试做某事却失败了,那可不是什么好事。」

他们最终决定以 Google DeepMind 的名义提交他们的成果。在 12 月会议召开的几个月前,Jones 收到了 CASP 组织者的来信。他们建议 DeepMind 团队参加会议,因为 AlphaFold 的表现确实很好。

虽然,他们在预测蛋白质结构方面比排名第二的团队仅高出 2.5 倍,但给人留下了深刻印象。

重新启动算法

这次胜利本应让 DeepMind 团队充满活力。但他们知道他们离解决蛋白质折叠问题还差得很远。Hassabis 几个月前就召集了他们。「我们到底要不要解决这个问题?」Jumper 回忆起 Hassabis 当时说的话。「如果不行,那就让我们找到可以产生真正巨大影响的问题吧。」

「那一刻我们真的下定了决心:我们要解决这个问题,」Jumper 说道。他们又重新回到了绘图板上。

9ce79818fc8409bc56e5801b70bc2867.jpeg

John Jumper 认为生物学家已经研究了足够多的蛋白质结构来解决蛋白质折叠问题。「我相信数据足够了,」Jumper 说,他于 2017 年开始在谷歌 DeepMind 工作。但「想法不够。」

凭借在物理、化学、生物和计算方面的丰富背景,Jumper 为头脑风暴会议带来了独到的见解。很快,他就领导了团队,团队人数从 6 人增加到了 15 人。「发生了一些非常独特的事情。」Raphael Townshend 说,他于 2019 年在 Google DeepMind 实习,后来创立了人工智能驱动的生物科技公司 Atomic AI。

在学术界,专家们往往彼此孤立,各自从事独立项目,很少合作。在 DeepMind,统计学、结构生物学、计算化学、软件工程等领域的专家齐心协力,共同研究蛋白质折叠问题。他们还拥有谷歌雄厚的财力和计算资源。「我作为一名博士生需要几个月才能完成的事情,我一天就能完成。」Townshend 说。

他说,伦敦 DeepMind 办公室充满活力,而大部分活力都来自 Jumper。「我想说,他是一个真正的天才,也是一个很谦虚的人。」计算机科学家 Ellen Zhong 说,她于 2021 年在 DeepMind 实习,现在是普林斯顿大学的助理教授。「他深受团队成员喜欢。」

在 Jumper 的领导下,AlphaFold 得以重建。DeepMind 设计了一种新型的 Transformer 架构,这种深度学习「基本上推动了过去五年来发生的每一项机器学习突破」,Townshend 说。

神经网络调整了连接强度,以更准确地表示数据,在本例中是蛋白质进化和结构数据。它通过第二个 Transformer 运行这些数据,以预测蛋白质的 3D 结构。然后,该算法将该结构与一些修订后的数据一起通过其 Transformer 再运行几次,从而进一步完善该结构。

786d2ba0c2d6bed74ccf011dfd636581.jpeg

当他们第一次开始研究 AlphaFold2 时,他们的算法「很糟糕,但也没有我们想象的那么糟糕」,Jumper 说。「它制造的螺旋看起来有点像蛋白质。」但随着他们进一步完善算法,他们注意到预测的效率和准确性有了巨大的提高。

「这确实很可怕。」Jumper 说,如果效果太好,通常意味着「你做错了」。他们检查了一下,没有问题。它只是在工作。

该团队决定进行内部实验,看看他们的系统是否对生物学家有帮助。他们确定了大约 50 篇发表在《Science》、《Nature》和《Cell》等期刊上的论文,这些论文不仅描述了一种新的蛋白质结构,还从该结构中获得了有关蛋白质功能的见解。他们想看看 AlphaFold2 是否能经受住实验者费力的考验。

他们输入氨基酸序列。AlphaFold2 运行其预测引擎。对于每个序列,它都会给出接近论文中提出的实验结构的预测。然而,在团队看来,这还不够准确。这些结构缺少实验人员了解的有关蛋白质的关键细节。「你感觉自己已经跑完了比赛,就像发现自己已经跑完了下半场一样,」Jumper 说。

在接下来的六个月里,团队进一步完善了该系统,一点点改进。在 2020 年 CASP 竞赛的蛋白质候选物发布前几周,他们进行了另一次实用性测试。Jumper 很满意。Google DeepMind 于 2020 年春季向 CASP 提交了他们的预测。然后他们就开始等待。

「地震」

初夏,Moult 收到了一封 CASP 评估员发来的电子邮件:「看看这个,太厉害了。」邮件中附有谷歌 DeepMind 解析的蛋白质结构。Moult 确实很佩服,但他认为这只是个例。

然后他收到了另一封电子邮件,又一封。「这太奇怪了,」他回忆道。有三、四封,一大堆近乎完美的蛋白质预测——而且全都来自 DeepMind。到夏末,「我们很快意识到……发生了一件非常非常不寻常的事情,」Moult 说。

CASP 评估员通过比较预测的蛋白质结构与已证实的实验结构来对每份提交的论文进行评分。满分为 100 分,即模型与现实逐个原子匹配。Moult 一直认为,只要得分超过 90,就表明算法已经有效地解析了蛋白质结构。AlphaFold 的大部分结构都达到或超过了 90 分。

2020 年 12 月,Jumper 在虚拟 CASP 会议上通过 Zoom 展示了 AlphaFold2。

对于任何不是神经网络专家的人来说,这些想法都很复杂。即便如此,结论还是很明确的。DeepMind 已经解决了蛋白质折叠问题的结构预测部分。AlphaFold2 可以根据蛋白质的氨基酸序列准确预测其结构。

多年来,Anastassis Perrakis 一直将未发表的实验结果贡献给 CASP 竞赛。当他看到 AlphaFold2 对其团队辛苦研究的蛋白质的分析结果时,他心想:AlphaFold2 的结果完全正确。

第三部分 改变生物学的研究方式

震撼与敬畏

结构生物学突然变得非结构化。

一开始,人们「进行了大量的自我反思」,Silvio Tosatto 说,他从 CASP 成立之初就参加了比赛。一些结构生物学家担心他们的工作会变得过时。其他人则开始为自己辩护,声称 AlphaFold2 并不准确。

计算生物学家们一直在努力解决这个问题,有些人甚至已经为此奋斗了几十年,但他们觉得这一刻既苦又甜。

在 CASP 会议结束后发表的一篇博客文章中,AlQuraishi 引用了一位与会者的话,这位与会者描述说,他感觉自己就像是孩子第一次离开家一样。

5c2e66300c36a722533c96c732026c96.jpeg

哥伦比亚大学数学基因组学项目的系统生物学家 Mohammed AlQuraishi 希望到 2040 年,深度学习能够模拟整个细胞及其内部的所有结构和动态。

但尽管对这个闪亮的新工具心存疑虑,许多科学家还是欣喜若狂。那些不做结构研究的人过去必须与结构生物学家合作来确定蛋白质结构,以便进行更广泛的实验。现在,他们只需按几个按钮,就可以自己获得结构。

在媒体上,AlphaFold2 成为了闪亮的人工智能新突破,它将「改变一切」。但科学家们花了数月和数年的时间才弄清楚 AlphaFold2 能做什么和不能做什么。

在 Jumper 发表演讲大约六个月后,Google DeepMind 发布了他们的成果并分享了 AlphaFold2 的底层代码。「当 AlphaFold2 发布后,第二天我们就尝试将它安装到我们的 GPU 服务器上。」Perrakis 说,生物学家开始行动起来了。

「原本我认为 AlphaFold2 会失败。」Thornton 说,「但实际上它非常成功。」

事情开始变得明朗,AlphaFold2 不但不是威胁,反而可能是加速研究的催化剂。它不但不会令结构生物学家失业,反而会为他们提供新工具,让他们更好地完成工作。

「如果你将结构生物学家仅仅视为研究蛋白质结构的技术专家,那么当然,结构生物学家已经失业了。」 Walden 说。但这就像说人类基因组计划让基因组学家过时了,因为他们再也不能发表描述单个基因序列的论文一样。

在许多情况下,结构生物学家的目标是发现蛋白质的功能。借助 AlphaFold2,他们可以在几分钟内提出假设,而不必等待数月或数年通过实验确定结构。

「这给结构生物学带来了许多好处,而不是坏处。」Adams 说,「这只会让这个领域变得更加令人兴奋。」

然而,它并没有像一些人预测的那样立即产生各种新药——研究人员很快发现该工具有其局限性。AlphaFold2 的预测并不完美。它们需要实验验证,Perrakis 说。

但「你可以更快地进入对结构的实际研究。」现在,当他的学生开始一个新项目时,他们首先使用 AlphaFold2 来预测特定蛋白质的结构。然后他们进行实验来验证它。

Perrakis 猜测他和其他研究人员会继续在一定程度上使用 X 射线晶体学。但为了开发初始蛋白质结构,许多人开始将深度学习预测与先进的电子显微镜技术(如低温电子显微镜)相结合,低温电子显微镜涉及快速冷冻生物样本并用电子轰击它们。然后他们就可以开始研究这些蛋白质的作用。AlQuraishi 说,AlphaFold2 拥有「涡轮增压」低温电子显微镜。

8dabd99bca9f21bbc24faa38e250ce47.jpeg

这种转变已经开始。2022 年 6 月,《Science》杂志的一期特刊揭示了人类核孔复合体的近原子结构。这种由 30 种不同蛋白质构成的巨大而复杂的结构几十年来一直是生物学上的难题。科学家利用 AlphaFold2 预测来填补低温电子显微镜未解决的蛋白质结构空白。

看到那篇论文,其中其他科学家利用 AlphaFold2 取得了生物学上的突破,「那一刻我意识到 [AlphaFold] 真的非常重要。」Jumper 说。

核孔复合体等发现是过去三年蛋白质科学发展历程中的重要发现。AlphaFold2 已经预测了蛋白质结构,这些结构已用于研究疾病和开发新的药物输送工具。

「这对我们帮助很大。」布罗德研究所的分子生物学家张锋说,他利用 AlphaFold2 设计了一个分子注射器,将药物输送到人体细胞中。

如果研究人员能够识别出能够锁定蛋白质形状并改变其行为的分子,那么了解蛋白质的结构也有助于药物研发。虽然一些研究表明 AlphaFold2 预测在这一领域不如实验结构有用,但其他研究表明它们同样有效。人工智能工具对药物研发的全面影响仍在显现。

然而,一些生物学家已经开始研究 AlphaFold2 的用途,而不仅仅是辨别已知蛋白质的结构和功能,以及设计自然界中不存在的蛋白质——这是设计新型药物的关键技术。

下一个前沿

在 2020 年 CASP 会议上听完 Jumper 的演讲后,Baker 几乎立即重新开始研究他的 Rosetta 算法。谷歌尚未分享 AlphaFold2 的底层源代码。

不过,「我们开始尝试他们提出的一些想法。」Baker 说。谷歌 DeepMind 在《Nature》杂志上发表 AlphaFold2 的同一天,他和他的团队宣布了 RoseTTAFold,这是 AlphaFold 的一个高精度竞争对手。RoseTTAFold 也使用深度学习来预测蛋白质结构,但其底层架构与 AlphaFold2 有很大不同。

Tosatto 说:「一旦科学理念被提出,人们,至少是那些拥有足够资源的人,就有可能对其进行逆向工程,并尝试在其基础上进行构建。」

RoseTTAFold 并非孤军奋战。其他 AlphaFold 竞争对手,包括 Meta,都设计了自己的算法来解决蛋白质结构预测或相关问题。包括 Townshend 的生物技术初创公司 Atomic AI 在内的一些公司已经将研究范围扩展到蛋白质之外,利用深度学习来了解 RNA 结构。

然而,在单结构预测领域,到目前为止还没有人能够与 AlphaFold 的准确性相媲美,Thornton 说:「我相信他们会的,但我认为再出现一次这样的 AlphaFold 时刻将非常困难。」

1fb48280a001fae5a7beafe9cf0e617b.jpeg

去年,David Baker(见图)与 John Jumper 和 Demis Hassabis 因利用人工智能彻底改变蛋白质的研究和设计而获得了生物学和生物医学知识前沿奖。

至少在公众眼中,Baker 和 Jumper 延续了 CASP 建立的富有成效的竞争传统。「他们可能觉得我在和他们竞争,但我觉得他们只是在激励我们。」Baker 说。

Jumper 对此表示欢迎。「人们在此科学基础上继续发展确实很重要。」他说,「如果没有 AlphaFold 的思想传承,我会感到难过。」

Baker 已经开始改进其项目,重点关注蛋白质科学的一个新领域:蛋白质设计。目前,生物学家仅限于研究大自然已经发明的蛋白质。Baker 设想了一门科学,他们可以设计新型蛋白质——专门用于利用阳光、分解塑料或作为药物或疫苗的基础的蛋白质。

「目前自然界中不同类型的蛋白质结构或形状的数量非常有限。」荷兰 Hubrecht 研究所的结构生物学家 Danny Sahtoe 说,他在 Baker 的指导下进行博士后研究。「从理论上讲,应该可以实现更多,如果你可以拥有更多形状,那也意味着你可以拥有更多功能。」

华盛顿大学蛋白质设计研究所所长 Baker 说,蛋白质设计本质上是「逆蛋白质折叠问题」。蛋白质设计师不是将氨基酸序列输入深度学习算法,然后要求其生成蛋白质结构,而是将结构输入算法,然后要求其生成序列。然后,设计师使用该氨基酸序列在实验室中构建蛋白质。

AlphaFold 和 RoseTTAFold 本身无法吐出这些序列;它们被编程为执行相反的操作。但 Baker 根据其神经结构创建了 RoseTTAFold 的特定设计迭代,称为 RoseTTAFold 扩散或 RF 扩散。

Sahtoe 表示,蛋白质设计领域已经存在很长时间,但深度学习加速了这一领域的发展。它使设计蛋白质逼真的计算机模型的过程「变得非常快」。训练有素的蛋白质设计师过去需要数周或数月才能创造出一种新蛋白质的主干。现在他们可以在几天内,有时甚至一夜之间就能制造出来。

f2196707ee201dfe9f3baaae281eed6f.jpeg

Foldit 是 Baker 实验室开发的一款在线游戏,玩家可以预测蛋白质结构。

Baker 还更新了 Foldit,将他的痴迷融入其中:玩家不再构建蛋白质结构,而是设计蛋白质。这种方法很有成效。Baker 的实验室已经撰写了关于几种玩家设计的蛋白质的论文。全球顶尖的 Foldit 玩家之一现在是一名研究生。

「我们了解蛋白质折叠吗?如果我们能设计出新的序列,折叠成新的结构,那就表明我们对蛋白质折叠了解颇多。」Baker 说,「从某种意义上说,你也可以将其视为解决蛋白质折叠问题的方法。」

信任训练

AlphaFold2 的成功无疑改变了生物学家对人工智能的态度。长期以来,许多实验生物学家不信任计算。他们明白,一些机器学习方法可以让数据看起来比实际更好。然后谷歌 DeepMind「明确地证明了你可以用它做严肃的工作」,AlQuraishi 说。现在任何怀疑都会被问到:「那么,AlphaFold 怎么样?」

「生物学家现在相信我们的预测结果。」推动卷积网络发展的计算生物学家许锦波说,「以前,生物学家总是怀疑我们的预测是否可靠。」

AlphaFold2 平台的一个功能就是发挥这种信任的作用:它不仅可以生成蛋白质的 3D 模型,还可以通过根据从 0 到 100 的置信度对结构的不同部分进行评分来自我评估其预测的准确性。

2022 年 7 月,在谷歌 DeepMind 发布了 2.18 亿种蛋白质的结构预测(几乎涵盖了世界上所有已知蛋白质)后,Adams 决定分析 AlphaFold2 的自我报告。他将这些预测与蛋白质的解析结构进行了比较,并独立评估了它们的准确性。

「好消息是,当 AlphaFold 认为自己正确时,它通常就非常正确。」Adams 说,「当它认为自己不正确时,它通常就不正确。」然而,他报告称,在 AlphaFold2 对其预测「非常有信心」的约 10% 的情况下(置信度至少为 100 分中的 90 分),情况其实不应该如此:预测与实验结果不符。

人工智能系统似乎有些自我怀疑,这可能导致人们过度依赖其结论。大多数生物学家认为 AlphaFold2 只是一个预测工具。但其他人则想得太多了。一些曾经与结构生物学家合作的细胞生物学家和生物化学家用 AlphaFold2 取代了它们——并将其预测视为真理。

Perrakis 说,有时科学家发表的论文中介绍的蛋白质结构对于任何结构生物学家来说都是明显错误的。「他们会说:『好吧,这就是 AlphaFold 结构。』」

「有些人对这些深度学习模型的能力过于自信,非常过于自信。」美国国立卫生研究院研究员 Lauren Porter 表示,「我们应该尽可能多地使用这些深度学习模型,但我们也需要谨慎和谦逊地对待它们。」

Jones 听说过一些科学家很难获得资金来计算确定结构。「普遍的看法是 DeepMind 做到了,你知道,为什么你们还在做?」Jones 说。但他认为这项工作仍然是必要的,因为 AlphaFold2 是会出错的。

「差距非常大。」Jones 说,「有些事情它做不到那么清楚。」

虽然 AlphaFold2 在预测小而简单的蛋白质结构方面非常出色,但在预测包含多个部分的蛋白质结构方面却不太准确。它还不能解释蛋白质的环境或与其他分子的结合,这些因素会改变蛋白质在自然状态下的形状。有时蛋白质需要被某些离子、盐或金属包围才能正确折叠。

「目前,AlphaFold 距离确定背景还有一段距离。」Walden 说道。她的团队通过实验确定了 AlphaFold2 无法预测的几种结构。

还有几种动态蛋白质,AlphaFold2 预测得不好,但它们的功能同样重要。蛋白质在生命环境里并不是静态的:它们的形状在与其他分子相互作用时会发生变化。有些蛋白质折叠成截然不同的形状,尽管具有相同的氨基酸序列。

动态蛋白「挑战了序列编码一种结构的范式。」Porter 说,「因为它们显然不是。」

与 DeepMind 算法训练的数十万种静态、单一结构蛋白质相比,折叠转换蛋白质的例子只有大约 100 个——尽管肯定存在更多。Porter 说,也许并不奇怪,「一般来说,这些算法是为了预测单个折叠而设计的。」

还有一些蛋白质就像商业门店的气球舞者一样四处乱舞。内在无序的蛋白质或蛋白质区域缺乏稳定的结构。它们不断扭动和重组。

哥本哈根大学计算蛋白质生物物理学教授 Kresten Lindorff-Larsen 说:「它们在很多方面都被忽视了,因为它们有点烦人。」

大约 44% 的人类蛋白质存在由至少 30 个氨基酸组成的无序区域。「这占了很大一部分。」Lindorff-Larsen 说。

AlphaFold2 可以预测某个区域何时可能出现内在无序——但它无法告诉你这种无序是什么样的。

对于 Jumper 来说,他最大的挫败在于 AlphaFold2 无法记录两种蛋白质之间因单个氨基酸而产生的差异,这种差异被称为点突变。

他说,点突变「有时会对蛋白质的结构产生巨大影响,但通常会对蛋白质的功能产生影响」。「AlphaFold 相对来说对它们视而不见」,因为它会对两个序列产生相同的结构。

2023 年 9 月,DeepMind 发布了 AlphaMissense,一种预测此类突变影响的深度学习算法。它无法显示结构的变化,但它会根据已知致病蛋白质中的类似突变告知用户突变是否会使蛋白质致病或引入功能障碍。

然而,即使 AlphaFold2 能够完美预测所有蛋白质,也远远达不到模拟生物现实的程度。这是因为在细胞中,蛋白质从不单独发挥作用。

细胞复杂性

细胞内部复杂而混乱。细胞外膜包裹着一个生化环境,其中密布着分子成分——蛋白质、信号分子、信使 RNA、细胞器等。蛋白质彼此结合并与其他分子结合,从而改变其形态和功能。

89b81dc4a7629457d80d06eaa3652f62.jpeg

蛋白质并不是单独起作用的,它们不断与其他分子相互作用。

AlphaFold2 预测单个蛋白质结构的能力并不能帮助生物学家了解这种复杂的原生环境中的蛋白质。但这正是该领域目前的发展方向。蛋白质科学的人工智能巨头谷歌 DeepMind 和 David Baker 的蛋白质设计研究所目前正在改进他们的深度学习算法,以预测蛋白质在与其他分子相互作用时呈现的结构。

2024 年春季,他们均发表了论文,描述了该领域的类似进展。他们的算法更新——以新名称 AlphaFold3 和 RoseTTAFold All-Atom 发布——使他们能够预测彼此结合的蛋白质、DNA、RNA 和其他小分子的结构。

生物学家们才刚刚开始测试这些更新。AlQuraishi 说,到目前为止,AlphaFold3 比 RoseTTAFold All-Atom 准确得多——但它的飞跃并不像「AlphaFold2 时刻」那么大。对于某些大分子,例如 RNA 结构,其精度仍然低于其他基于物理的系统和实验。

尽管如此,新算法还是朝着正确的方向迈出了一步。蛋白质与其他分子之间的相互作用对于它们在细胞中的功能至关重要。为了开发能够对接蛋白质并根据需要改变其活性的药物,研究人员需要了解这些复合物的样子。

不过,Adams 表示,这两种算法都不太可能在短期内催生出新药。「这两种方法的准确性仍然有限,但都比以前有了显著的改进。」

DeepMind 的新产品还有一个重大变化,AlphaFold2 的底层代码是开源的,以便其他研究人员可以研究该算法,并将其重新用于自己的项目。

然而,谷歌目前并没有分享 AlphaFold3 的源代码,而是选择将其作为商业机密进行保护。「至少目前,没有人能够像使用 [AlphaFold2] 那样运行和使用它。」AlQuraishi 说。

早在 AlphaFold3 发布之前,研究人员就一直在测试 AlphaFold2,看看它能否提供有关不同构象蛋白质的有用信息。

布朗大学化学与物理学副教授 Brenda Rubenstein 对激酶很感兴趣,激酶是一种激活其他蛋白质的蛋白质。

具体来说,她想了解激酶导致癌症的机制,以便开发出更精准的抗癌药物。她的实验室使用基于物理学的方法对激酶的结构进行建模,该方法利用牛顿定律绘制原子的 3D 坐标。这花了两年半的时间。

「大约一年前,我们说:我们能不能做得更快?」Rubenstein 说。他们尝试以一种新颖的方式使用 AlphaFold2。通过将相关蛋白质的数据输入算法,她发现它可以预测不同构象的激酶,准确率超过 80%。

Rubenstein 实验室是几个实验室的发现之一,「如果你以正确的方式戳 AlphaFold,它就会吐出替代构象,」AlQuraishi 说。「这令人鼓舞。」

AlQuraishi 希望到 2040 年,深度学习将能够模拟整个细胞及其内部的所有结构和动态。然而,要实现这一目标,实验和计算方面都需要飞跃。

「局外人」的看法

对于许多生物学家来说,AlphaFold2 是他们期待已久的突破。CASP 的目标是创建能够根据序列预测蛋白质结构的计算工具。然而,许多人还是忍不住要问:为什么一个相对较新的人能够破解蛋白质密码,而这么多专家已经努力了几十年?

Google DeepMind 的计算机和蛋白质科学家团队对这个问题的见解是不可否认的。同时,蛋白质科学的土壤肥沃,随时可以引发一场深度学习革命,AlQuraishi 说。「这些事情不是凭空而来的。」

到 CASP 2020 召开时,许多研究人员预计结构预测方面的突破将通过人工智能实现。「一切都朝着这个方向发展,」Townshend 说。但他们没想到这个突破会来自一家价值数十亿美元的科技公司,而且他们没想到会这么快实现。

有人说 AlphaFold2 不是新科学的壮举,而是巧妙的工程设计。有人对 David Baker 的算法未能获奖感到惊讶。其他人则不那么惊讶,因为 Google DeepMind 拥有无与伦比的资源。

每年都有大约 100 个实验室参加 CASP,尽管他们已经开始采用人工智能技术,但他们「可能不具备 DeepMind 那样的专业知识和计算能力。」Thornton 说。DeepMind「拥有基本上无限的计算能力」。

她还推测,谷歌缺乏蛋白质科学方面的专业知识,这或许让他们的创造力得到了释放。「他们专心致志。」Thornton 说,专注于构建一个伟大的神经网络。蛋白质生物学家则有负担。

在开发 AI 工具的过程中,他们希望捕捉蛋白质折叠所涉及的原子级分子物理和化学过程。DeepMind 采用了不同的方法:我们将序列数据转换为 3D 结构,至于如何实现这一点并不重要。

「我认为之前的许多预测都是试图解决蛋白质折叠问题,而他们实际上只是用蛮力」来绘制原子在空间中的最终位置,Walden 说,「有趣的是,他们可能已经解决了这个问题。」

df46e196dc43d8dd14bd519bb515b1bc.jpeg

普林斯顿大学计算机科学家 Ellen Zhong 曾于 2021 年在谷歌 DeepMind 的 AlphaFold2 团队实习,她率先将深度学习与低温电子显微镜相结合研究蛋白质动力学。

对于一些生物学家来说,这种方法并不能完全解决蛋白质折叠问题。从结构生物学的早期开始,研究人员就希望了解氨基酸链如何折叠成蛋白质的规则。有了 AlphaFold2,大多数生物学家都认为结构预测问题已经解决。

然而,蛋白质折叠问题却没有解决。「现在,你只有这个黑匣子,它可以以某种方式告诉你折叠状态,但实际上却不知道如何达到折叠状态。」普林斯顿大学计算机科学家 Ellen Zhong 说。

布朗大学计算机科学家 Littman 说:「这个问题的解决方式与科学家的解决方式不一样。」

这可能听起来像是「语义上的争论」,约翰霍普金斯大学名誉生物物理学教授 George Rose 解释道,「但当然不是。」AlphaFold2 可以根据对数十万种蛋白质结构的分析,识别出给定氨基酸序列的折叠模式。但它无法告诉科学家有关蛋白质折叠过程的任何信息。

「对很多人来说,你不需要知道。他们不在乎。」Rose 说,「但科学,至少在过去 500 年左右……一直致力于试图理解事物发生的过程。」

Rose 认为,要了解蛋白质生命的动态、机制、功能和性质,你需要了解完整的故事——而深度学习算法无法告诉我们这个故事。

对于 Moult 来说,机器做一些他不懂的事情并不重要。「我们都习惯了机器做我们做不到的事情。你知道,我跑不了车那么快。」他表示,对于试图研究蛋白质且只需要知道其大致样子的分子生物学家来说,如何了解它并不重要。

但「除非我们真正了解其工作原理,否则我们永远无法获得 100% 可靠的预测器。」Porter 说,「我们必须了解基本物理原理,才能做出最明智的预测。」

「我们不断改变目标。」AlQuraishi 说道,「我确实认为核心问题已经解决,所以现在最重要的是接下来该怎么做。」

就在生物学家们继续争论这些话题的同时,其他人也在期待着这个领域发生无可否认的变化——并回顾其近代的过去。

有时,Perrakis 会怀念过去的做事方式。2022 年,他的团队描述了一种参与修饰微管(为细胞提供结构的巨型棒状分子)的酶,这种酶是他们利用 X 射线晶体学确定的。

「我意识到我再也不会这么做了。」他说,「经过几个月的努力,第一个『建筑』终于出现了,这真是一种特别的满足。」

AlphaFold2 并没有让这些实验变得过时。相反,它表明了这些实验的必要性。它把两个历史上完全不同的学科连接在一起,开启了一场新的、令人兴奋的对话。

「新世界」

Perrakis 说,70 年前,人们认为蛋白质是一种胶状物质。「现在看看我们能看到什么」:蛋白质世界的一个又一个结构,无论它们是自然存在的还是经过设计的。

Perrakis 说,蛋白质生物学领域「现在比 AlphaFold 之前更令人兴奋」。令人兴奋的是,基于结构的药物发现有望得到复兴,假设的产生速度加快,以及理解细胞内发生的复杂相互作用的希望。

「这感觉就像是基因组学革命,」AlQuraishi 说。数据如此之多,生物学家,无论是在实验室还是在电脑前,都刚刚开始弄清楚如何处理这些数据。

但就像世界各地出现的其他人工智能突破一样,这一突破可能也有一个上限。

AlphaFold2 的成功建立在训练数据的可用性上——数十万种蛋白质结构由耐心的实验人员精心确定。虽然 AlphaFold3 及其相关算法在确定分子化合物结构方面取得了一些成功,但它们的准确性落后于单蛋白质算法。部分原因是可用的训练数据明显较少。

蛋白质折叠问题「几乎是人工智能解决方案的完美例子」,Thornton 说,因为该算法可以对以统一方式收集的数十万种蛋白质结构进行训练。然而,蛋白质数据库可能是生物学中组织化数据共享的一个不寻常的例子。如果没有高质量的数据来训练算法,它们就无法做出准确的预测。

「我们很幸运,」Jumper 说。「我们遇到这个问题的时候,它已经到了可以解决的时候了。」

没人知道深度学习在解决蛋白质折叠问题上的成功是否会延续到其他科学领域,甚至是生物学的其他领域。但有些人,比如 AlQuraishi,对此持乐观态度。「蛋白质折叠其实只是冰山一角,」他说。例如,化学家需要进行计算量很大的计算。AlQuraishi 说,借助深度学习,这些计算的速度已经比以前快了一百万倍。

人工智能显然可以推进特定类型的科学问题。但它可能只能帮助科学家推进一定程度的知识进步。AlQuraishi 表示:「从历史上看,科学一直致力于理解自然,即生命和宇宙背后的过程。如果科学发展过程中的深度学习工具只揭示解决方案,却不揭示过程,那么这还是真正的科学吗?

「如果你能治愈癌症,你会关心它到底是如何起作用的吗?」AlQuraishi 说。「这是我们未来几年要努力解决的一个问题。」

如果许多研究人员决定放弃了解自然过程,那么人工智能不仅会改变科学,也会改变科学家。

与此同时,CASP 组织者正在努力解决另一个问题:如何继续他们的比赛和会议。AlphaFold2 是 CASP 的产品,它解决了组织会议的主要问题。「这对我们来说是一个巨大的冲击:CASP 到底是什么?」Moult 说。

2022 年,CASP 会议在土耳其安塔利亚举行。谷歌 DeepMind 没有参赛,但人们感受到了该团队的存在。「这或多或少只是人们在使用 AlphaFold。」Jones 说,从这个意义上说,谷歌无论如何都是赢家。

一些研究人员现在不太热衷于参加。许锦波说:「看到那个结果后,我就改变了研究方向。」其他人则继续磨练他们的算法。Jones 仍然涉足结构预测,但现在对他来说这更像是一种爱好。其他人,比如 AlQuraishi 和 Baker,则继续开发新的结构预测和设计算法,毫不畏惧与一家价值数十亿美元的公司竞争的前景。

Moult 和会议组织者正在努力改进。下一轮 CASP 在 5 月份开放报名。他希望深度学习能够征服结构生物学的更多领域,如 RNA 或生物分子复合物。「这种方法解决了这个问题。」Moult 说,「结构生物学中还有很多其他相关问题。」

今年的比赛会是什么样子,谁也说不准。但如果过去几届 CASP 可以作为参考的话,Moult 知道只有一件事可以期待:「惊喜」。

f89eb00efdb55819cd087028ad9fd74c.jpeg

相关内容:https://www.quantamagazine.org/how-ai-revolutionized-protein-science-but-didnt-end-it-20240626/

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

159d980d2509fca64738f3b1027bee10.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值