AlphaFold:解决一个困扰生物学家50年的重大问题的模型

最新推荐文章于 2025-03-03 09:01:31 发布

Lony0223

最新推荐文章于 2025-03-03 09:01:31 发布

阅读量1.3k

点赞数 3

文章标签：深度学习

原文链接：https://deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology

版权

DeepMind的AlphaFold在CASP14评估中解决了长期存在的蛋白质折叠问题，预测精度达到前所未有的水平。这一突破有望加速药物研发进程，并开启生物学研究的新篇章。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

导论

“近50年来，我们一直坚持这个问题——蛋白质如何折叠。看到DeepMind为这个问题提供解决方案，他已经在这个问题上工作了很长时间，并且经过了无数次停滞后，不知道我们是否会到达那里，这是一个非常特殊的时刻。”

——John Moult教授，CASP的联合创始人兼主席，马里兰大学

蛋白质对于生命至关重要，几乎可以支持其所有功能。蛋白质是由氨基酸链组成的大型复杂分子，其作用很大程度上取决于其独特的3D结构。解决蛋白质折叠成什么形状被称为“蛋白质折叠问题”，这在过去的50年中一直是生物学上的巨大挑战。在一项重大的科学进步中，两年一次的蛋白质结构预测关键评估（CASP）的组织者认为，DeepMind最新的AI系统AlphaFold版本¹可以解决这一挑战。这一突破表明，人工智能可以对科学发现产生影响，并有潜力极大地加速解释和塑造我们世界的一些最基本领域的进步。

蛋白质的形状与其功能密切相关，并且预测这种结构的能力使人们对蛋白质的功能和功能有了更深入的了解。从根本上说，世界上许多最大的挑战都与蛋白质及其发挥的作用有关，例如开发疾病的治疗方法或寻找能分解工业废物的酶。

多年来，这一直是密集科学研究的重点，它使用各种实验技术来检查和确定蛋白质结构，例如核磁共振和X射线晶体学。这些技术以及诸如冷冻电子显微镜之类的较新方法取决于广泛的反复试验，每个结构可能要花费数年的艰辛和艰巨的工作，并且需要使用数百万美元的专用设备。

蛋白质折叠问题

在1972年诺贝尔化学奖的获奖演讲中，Christian Anfinsen提出了著名的假设，“从理论上讲，蛋白质的氨基酸序列应完全决定其结构”。这一假设引发了长达五年的探索，希望能够仅基于蛋白质的1D氨基酸序列来计算预测蛋白质的3D结构，以作为这些昂贵且费时的实验方法的补充选择。然而，一个主要的挑战是，蛋白质在进入最终3D结构之前在理论上能够折叠的方式是天文数字。1969年，Cyrus Levinthal指出，通过暴力计算来枚举典型蛋白质的所有可能构型（莱文萨尔估计典型蛋白质的10³⁰⁰种可能构象）所需的时间比已知宇宙的时间长。但在自然界中，蛋白质会自发折叠，有些会在几毫秒内折叠——这种差别有时被称为莱文塔尔悖论。

CASP14评估结果

1994年，John Moult教授和Krzysztof Fidelis教授创立了CASP作为两年一次的盲目评估，以促进研究、监测进展并建立蛋白质结构预测的最新技术水平。它既是评估预测技术的黄金标准，也是建立在共同努力基础上的独特全球社区。最重要的是，CASP选择刚在实验上确定的蛋白质结构（在评估时仍在等待确定）作为团队测试其结构预测方法的目标，即它们不会提前发布。参与者必须盲目地预测蛋白质的结构，然后将这些预测与可获得的基准实验数据进行比较。我们要感谢CASP的组织者和整个社区，尤其是实验人员，其结构能够进行这种严格的评估。
CASP用来衡量预测准确性的主要指标是全局距离测试（GDT），范围为0-100。简单来说，GDT可以近似地认为是距正确位置的阈值距离内的氨基酸残基（蛋白质链中的小珠）的百分比。根据Moult教授的说法，大约90 GDT的分数被非正式地认为能媲美通过实验方法获得的结果。
在今天发布的第14次CASP评估的结果中，最新的AlphaFold系统在所有目标上的GDT总体平均得分为92.4。这意味着AlphaFold的预测的平均误差（RMSD）约为1.6埃，可与原子的宽度（或0.1纳米）相比。即使对于最困难的蛋白质目标，也就是最具挑战性的自由建模类别中的蛋白质，AlphaFold的中值得分均为87.0 GDT（点此获得数据）。

自由建模结果对比
自由建模类别中蛋白质目标的两个例子。ALPHAFOLD预测针对实验结果的高度精确的结构。
这些令人振奋的结果为生物学家打开了将计算结构预测用作科学研究中的核心工具的潜力。DeepMind的方法可能证明对重要的一类蛋白质（例如膜蛋白）特别有用，这些蛋白质很难结晶，因此很难通过实验确定。

“这项计算工作代表了蛋白质折叠问题的惊人进展，这是一个已有50年历史的生物学重大挑战。几十年来，该领域的许多人已经预料不到。看到它将从根本上改变生物学研究的多种方式将是令人兴奋的。”

—— Venki Ramakrishnan教授,诺贝尔奖获得者兼皇家学会主席

DeepMind解决蛋白质折叠问题的方法

DeepMind在2018年首次使用初始版本的AlphaFold参与CASP13，该版本在参与者中获得了最高的准确性。随后，他们在《Nature》上发表了一篇有关CASP13方法及相关代码的论文，该论文继续启发了其他工作和社区开发的开源实现。现在，他们开发的新的深度学习架构推动了CASP14方法的变化，使AlphaFold能够实现无与伦比的准确性。这些方法从生物学、物理学和机器学习领域以及过去半个世纪中在蛋白质折叠领域的许多科学家的工作中汲取了灵感。
折叠的蛋白质可以被视为“空间图”，其中残基是结点，边将残基紧密相连。该图对于理解蛋白质内的物理相互作用及其进化历史非常重要。对于CASP14上使用的最新版本的AlphaFold，DeepMind创建了一个基于注意力的神经网络系统，该系统基于端到端训练，试图解释该图的结构，同时对它所隐含的图进行推理。它使用进化相关序列，多序列比对（MSA）和氨基酸残基对表示来完善此图。
主要神经网络模型架构概述。该模型对进化相关的蛋白质序列以及氨基酸残基对进行操作，在两个表示之间反复传递信息以生成结构
通过重复此过程，系统可以对蛋白质的基本物理结构进行强有力的预测，并能够在几天之内确定高精度的结构。此外，AlphaFold可以使用内部置信度量度来预测每个预测的蛋白质结构的哪些部分是可靠的。
DeepMind在公开数据上训练了该系统，该数据由来自蛋白质数据库的〜170,000种蛋白质结构以及包含未知结构蛋白质序列的大型数据库组成。它使用了大约16个TPUv3（相当于128个TPUv3核或大约相当于100-200个GPU），运行了几周，相对于现在机器学习中使用的大多数大型最新模型而言，计算量相对较小。

对现实世界的潜在影响

“AlphaFold是上一代产品中的佼佼者，以惊人的速度和精度预测蛋白质结构。这一飞跃证明了计算方法将如何转变生物学研究，并为加速药物发现过程具有广阔的前景。”

—— Arthor·D·Levinson,博士，CALICO创始人兼首席执行官GENENTECH前董事长兼首席执行官

DeepMind十年前开始时，希望有一天AI突破能够帮助进一步了解基础科学问题。现在，经过4年的构建AlphaFold的努力，研究者开始看到这种愿景的实现，这对药物设计和环境可持续性等领域产生了影响。
马克斯·普朗克发育生物学研究所所长，CASP评估员Andrei Lupas教授说，“ AlphaFold惊人的精确模型使我们能够求解一个困扰我们近十年的蛋白质结构，从而重新致力于了解信号如何跨细胞膜传输。”
DeepMind对AlphaFold对生物学研究和整个世界的影响非常乐观，并乐于与他人合作，以进一步了解其在未来几年的潜力。除了撰写经过同行评审的论文外，他们还在探索如何最好地以可扩展的方式为系统提供更广泛的访问。
同时，DeepMind也正在与少数专家小组一起研究蛋白质结构预测如何帮助对特定疾病的理解，例如，通过帮助鉴定出故障的蛋白质并推断其相互作用方式。这些见解可以使药物开发工作更加精确，从而补充现有的实验方法，从而更快地找到有希望的治疗方法。
作为科学界开发的众多工具之一，他们还发现有迹象表明蛋白质结构预测可能在未来的大流行应对工作中有用。今年早些时候，DeepMind预测了SARS-CoV-2病毒的几种蛋白质结构，包括其结构以前未知的ORF3a。在CASP14，我们预测了另一种冠状病毒蛋白ORF8的结构。实验人员令人印象深刻的快速工作现在已经确认了ORF3a和ORF8的结构。尽管它们具有挑战性并且相关序列很少，但是与它们的实验确定的结构相比，AlphaFold在两个预测中均获得了很高的准确性。
除了加速对已知疾病的了解之外，他们对这些有潜力探索目前尚无模型的亿万种蛋白质（广阔的未知生物学领域）的技术感到兴奋。由于DNA指定了构成蛋白质结构的氨基酸序列，因此基因组学革命使得从自然界的宏观尺度读取蛋白质序列成为可能——拥有1.8亿个蛋白质序列并在Universal Protein Database（UniProt）中进行计数。然而，鉴于需要进行从序列到结构的实验工作，蛋白质数据库（PDB）中只有约170,000种蛋白质结构。在待定的蛋白质中，可能有一些具有令人兴奋的新功能，并且就像望远镜可以帮助天文学家更深入地了解未知的宇宙一样，像AlphaFold这样的技术也可以帮助研究者找到它们。

解锁新的可能性

AlphaFold是迄今为止DeepMind最重要的进步之一，但是，与所有科学研究一样，仍然有许多问题需要解答。并非预测的每个结构都是完美的。还有很多东西需要学习，包括多种蛋白质如何形成复合物，它们如何与DNA，RNA或小分子相互作用以及我们如何确定所有氨基酸侧链的精确位置。与他人合作，还有很多东西要学习如何在新药开发中最好地利用这些科学发现，如何管理环境等等。
对于所有致力于科学计算和机器学习方法的人来说，诸如AlphaFold之类的系统都证明了AI作为辅助基础发现工具的惊人潜力。就在50年前，Anginsen提出了当时远远超出科学范围的挑战，而我们宇宙的许多方面仍然未知。今天宣布的进展使DeepMind更加相信，人工智能将成为人类在扩展科学知识前沿方面最有用的工具之一，他们期待着多年的艰苦努力和发现！