【文献阅读】What does AlphaFold mean for drug discovery?-CSDN博客

本文链接：https://blog.csdn.net/weixin_42038527/article/details/136952751

今天要分享一篇2021年9月发表在《Nature》上的新闻。

原文链接：

What does AlphaFold mean for drug discovery? (nature.com)https://www.nature.com/articles/d41573-021-00161-0

原文概览：

这篇文章主要讨论了DeepMind的AlphaFold和RoseTTAFold在蛋白质结构预测方面的革命性进展，以及它们对药物发现的潜在影响。文章提到了这些预测算法的优势和局限性，以及在药物发现领域中的应用前景。同时，还涉及了一些专家对于这些预测工具在实际项目中的使用建议和展望。

文中提到的预测算法的优势包括：

AlphaFold和RoseTTAFold在蛋白质结构预测方面取得了革命性的进展，提高了对人类蛋白质组中蛋白质结构的预测置信度。
AlphaFold使得对人类蛋白质组中至少75%的蛋白质序列的预测置信度达到了75%。
这些算法使得研究人员能够更快速地了解蛋白质结构动态对药物发现的机会。

而这些预测算法的局限性包括：

目前版本的AlphaFold和RoseTTAFold无法准确区分蛋白质的“active”和“inactive”构象。
当研究人员希望在蛋白质的活跃、与配体结合的构象上进行对接实验时，当前版本的AlphaFold通常返回一个无活性状态，导致实验结果不准确。
针对具有多种构象的蛋白质，如具有松散无序区域的蛋白质，这些算法的预测效果较差，因为这些区域难以用传统晶体学方法表征。

原文翻译：

AlphaFold对药物发现意味着什么?

AlphaFold和RoseTTAFold在蛋白结构预测方面取得了革命性的进展，但对药物发现的影响更大。

一封标题只有 "Zoom邀请" 的邮件来得太突然了，但DeepMind的John Jumper在打开它时松了一口气。经过几个月令人紧张的CASP14竞赛，结果很明确。会议组织者写道，他的小组“表现得非常好……无论是相对于其他小组，还是在模型的绝对准确性方面......”。

CASP的全称叫 "Critical Assessment of Structure Prediction: 结构预测关键评估" 竞赛，作为蛋白质结构计算预测基准测试的一种方式，于1994年启动，是两年一次的竞赛，旨在仅根据蛋白质的氨基酸序列来预测蛋白质的结构。长期以来，团队一直在努力取得不错的成绩。Google子公司DeepMind于2018年加入比赛，并击败了同行。2020年，它的 "AlphaFold2" 在竞争中脱颖而出【aced the competition】。

由于COVID【新冠疫情】限制，Jumper在视频会议上与他的团队分享了这一好消息。这比大多数情况都要好。“你可以看到人们眼睛放光了，”他回忆道。

现在，DeepMind在《自然》杂志上发表了两篇论文，详细介绍了这种方法（指AlphaFold），并发布了源代码供其他人探索。与EMBL-EBI合作，它已经发布了超过35万种蛋白质的预测结构，供所有人使用。受AlphaFold预测能力的启发，华盛顿大学的David Baker和同事们开发了一种名为RoseTTAFold的替代方案，它也能准确预测蛋白质结构。

药物开发人员和其他人正热切地【eagerly】尝试这些技术。

Fiona Marshall (Head of Discovery, Preclinical and Translational Medicine at Merck & Co. and a structure-based drug design pioneer) 说："毫无疑问，这些方法在生成蛋白质结构方面取得了巨大的飞跃。他们使每个人都能成为结构生物学家，这是非常有趣的。"

她和同行发现，这些预测工具简化了药物发现工作流程的某些方面。例如，它们可以使实验更容易地解决结构问题：在前端，通过促进形成晶体的稳定蛋白质结构的设计，在后端，通过帮助理解x射线数据。Marshall说："虚拟世界和实验世界之间有一种很好的协同作用"。

但是对活性位点预测准确性的不确定性仍然是一个关键的限制，因为无法确定蛋白质的何种构象状态将被程序（AlphaFold或RoseTTAFold）预测。

Marshall说："在可能的情况下，我们仍将尝试获得配体结合蛋白【ligands bound t proteins】的共结晶结构，以进行基于结构的药物设计"。虽然这曾经需要3-4年的时间，但冷冻电镜技术【cryo-EM】可以在几个月内帮助某些类型的未解析蛋白【unsolved proteins】实现这一目标。

Dewpoint Therapeutics公司董事会成员兼战略顾问、Relay Therapeutics联合创始人Mark Murcko补充道，从长远来看，这一领域前景广阔【There is plenty of promise for the longer-term future】。他说："AlphaFold打开了一个工具箱【toolbox】，向全世界展示了可能发生的事情"。"现在我们将有几十个实验室，每个实验室都在思考略微不同的问题集"。这些包括蛋白质配体结构的预测，变构口袋的可药性，蛋白质-蛋白质相互作用和RNA靶点，以及疫苗免疫原和新生治疗蛋白的设计。

Murcko说："科学上的任何成功会立即让你觉得很激动。接下来我们做什么？我们如何在此基础上继续发展?"。

口袋预测【Pocket predictions】

DeepMind 的进步得益于蛋白质数据库：PDB，这是一个开放访问的经实验验证的结构数据库。PDB 成立于1971年，目前包含超过180,000个条目，涉及约100,000种独特的蛋白质。DeepMind与CASP 竞赛中的其他团队一样，使用这些已知的结构作为自己的深度学习框架的训练集。通过利用计算专业知识和强大的计算能力，DeepMind开发了模式匹配神经网络系统，现已将蛋白质结构预测推向主流【mainstream】。

在氨基酸残基水平上，这意味着 AlphaFold 对人类蛋白质组中 36% 残基的预测位置具有 "高置信度（High Confidence）"，对另外 22% 残基的位置具有 "置信度（Confidence）"。在蛋白质水平上，它准确预测了44%的人类蛋白质组中至少 75% 的蛋白序列。

一项研究发现，在AlphaFold出现之前，实验验证和其他建模方法为 47% 的人类蛋白质组提供了有用的结构见解。 AlphaFold使这一比例达到了 75%。过去有4,832 种人类蛋白质没有结构信息，而 AlphaFold将其减少到 29到1,336 种复杂的蛋白质。

Karen Akinsanya (Chief Biomedical Scientist at Schrödinger) 说："总的来说，我们非常激动，因为我们能够获得更多的蛋白质结构”。

但药物猎头特别关注蛋白质的特定部分：小分子可以结合的活性口袋和变构口袋。因此，他们面临的问题是这些区域 (regions) 的预测有多可靠？

药物猎头：一种从事药物研发的科学家或研究人员，致力于发现和开发新的药物治疗方案。

加州大学旧金山分校的化学家和虚拟药物筛选员 Brian Shoichet 说："在某种程度上，我真的印象深刻"。他对预测结构与已知结构的初步比较表明，AlphaFold 和 RoseTTAFold 在整体折叠方面都表现 "非常好"。他说："但当涉及结合位点时，情况就更加复杂了"。

重要的是【Critically】，蛋白质的活性位点往往会打破 "蛋白质折叠规则"，因为它们必须足够灵活才能结合一个或多个配体（这些配体并不总是存在）。例如，它们通常不如蛋白质的其他部分折叠得那么好。 Shoichet 说："这些规则之所以能够被打破，是因为蛋白质的其余部分都折叠得很好。这使得活性位点对于这些预测方法来说变得困难"。

他说："社区仍然需要尝试一下它，看看它有多大用处"。他补充说，这对某些蛋白质家族可能比其他蛋白质家族更有帮助。

Bryan Roth (a pharmacologist and GPCR expert at University of North Carolina) 则更加谨慎。他的实验室将 AlphaFold 和 RoseTTAFold 预测的结构叠加【overlay】到尚未存在于 PDB 中的 20 个 GPCR 的实验解析结构上。Roth说： "在大约 50% 的情况下，效果相当不错。据我所知，在大约 50% 的情况下，它并不是特别有用，当然，问题在于你不知道你的结构属于哪 50%"。

G 蛋白偶联受体（G protein-coupled receptor，简称：GPCR）是真核生物中最大的一类膜蛋白家族。GPCR 包含7 个跨膜蛋白，通过其信号通路的协同作用调节重要的生理过程。GPCR 基因表达的改变和信号转导的失调已被认为是恶性肿瘤的标志。细胞膜上特异性GPCR 的异常表达可刺激细胞持续且不受调控地增殖并触发细胞内信号转导，最终导致肿瘤细胞的生长，诱导血管生成和转移。

在此分析中，AlphaFold 的内置置信度指标并未成功预测。

他补充道："对于我的项目来说，它没有用。这不会改变我们做事的方式，只要得到一个结构。这就是我们正在做的事情。"

对于 Roth 和 Shoichet 来说，需要进行前瞻性验证实验才能真正了解这些程序的实用性。为此，合作者计划在一组新的活性位点上运行大规模的基于计算的虚拟筛选，这些活性位点已经通过实验验证和计算预测。然后，他们将购买前几百个蛋白，在实验室中测试这些蛋白的活性位点，并比较成功率。

Shoichet 说："通过回顾性研究，你可以让自己相信任何事情。你需要前瞻性测试" 。

prospective validation experiments vs retrospective studies

着眼于未解析jieg的新靶标的药物猎头可能会采取更多基于项目的方法。 Murcko 表示，AlphaFold 预测提供了“一个完全合理的起点”，只要团队能够提供其他结构见解并充分利用基于物理的分子动力学模型来完善活性位点的细节，然后再继续前进。

“我个人认为这是一个很好的开始方式。我们必须通过练习来了解结构最准确和最不准确的地方，”他补充道。

Moving parts

在某种程度上，预测的效用将取决于它们生成的结构的构象状态。毕竟，蛋白质在细胞中运动。然而，单独的 X 射线结构和预测都只捕捉到了可能性的一个快照。

在 Relay 等公司，研究人员专注于了解蛋白质运动如何创造药物发现机会。能够可靠地促进这项工作的预测算法将加快速度。

“想象一下，它不仅能够说‘这就是这种蛋白质的折叠方式’，还能‘非常密切地关注这种氨基酸，它靠近催化位点，可以以几种不同的构象存在，”Murcko 说。 “这将是这些算法的下一个发展水平。”

AlphaFold 和 RoseTTAFold 不存在。相反，他们甚至还无法区分蛋白质的“活性”和“非活性”构象。相反，“当前版本的 AlphaFold 为您提供了它认为最有可能出现在 PDB 中的结构，”Jumper 解释道。

他补充说，这在虚拟筛选工作中可能是一个问题。尽管研究人员希望对蛋白质的活性配体结合构象进行对接实验，但当前版本的 AlphaFold 通常会返回带有空口袋和未对齐侧链的非活性状态。

DeepMind 的 Kathryn Tunyasuvunakool 表示：“我们的感觉是，如果你有非常高置信度的预测，[分子对接]可能值得一试，但总的来说，我们预计需要更多的工具开发才能成为可靠的程序。”最近的 EMBL-EBI 网络研讨会讨论了如何解释 AlphaFold 结构。

处于构象尺度最末端的蛋白质——那些具有松软的本质无序区域、可以采用多种形状的蛋白质——甚至更加麻烦。这些区域可以具有重要的活性，包括在称为生物分子凝聚物的瞬时无膜细胞器的形成和溶解中。但 AlphaFold 在预测这些区域的结构方面得分特别低，这是有充分理由的，因为用传统的晶体学方法来表征它们是多么困难。

在 Dewpoint（一家处于生物分子凝聚生物学前沿的生物技术公司），研究人员正在探索是否可以将这一弱点转化为优势。 “低置信度”预测可能有助于查明本质上无序区域的位置，这是研究其生物学的关键一步。 “这就像一个独立的检查步骤，检查蛋白质的哪些区域实际上是无序的，”Murcko 说。 “Dewpoint 特别感兴趣的是了解这种方法教给我们关于蛋白质无序区域的知识。”

其他人也是如此。 EMBL 的 Bálint Mészáros 在 EMBL-EBI 网络研讨会上指出，有时 AlphaFold 可以识别本质上无序区域中的功能位点并预测其复杂结构。

更长的愿望清单

更好的活性位点准确性和构象控制肯定会使这些预测程序对药物搜寻者更有用。但深度学习爱好者希望这些系统有一天能够更具变革性。例如，也许有一天它们可以用来可靠地预测蛋白质-配体相互作用的结构。

“如果我们能够解决蛋白质配体问题，那么就会立即改变药物发现的世界，”Murcko 说。 “这时间花得很值。”

这里的障碍是巨大的。

其一，AlphaFold 接受了蛋白质数据库中超过 170,000 个结构的训练。但其中许多不与生理相关的配体结合。训练集大小的减小将降低结果预测的准确性。

更成问题的是，蛋白质是用标准的 20 种氨基酸一遍又一遍地构建的——不同构建模块之间可能发生确定的原子相互作用。相比之下，小分子空间由 1060 个分子组成，充满了未知的原子可能性的星系。

“你必须训练一个机器学习模型来预测所有这些配体（或其中相当大一部分）与蛋白质在其许多结合位点之间的原子相互作用。我认为这是一个巨大的问题。”Akinsanya 说道。

更复杂的是，蛋白质可以结合多个配体。那么，在训练集中必须捕获多少它们的结合潜力呢？一种蛋白质-配体结构是否足够，或者是否需要解决单个口袋与数十、数百甚至数千个不同配体的结合？同样，是否需要数百或数千种蛋白质的数据深度？

“我们只是动力不足，”Shoichet 说。 “我真的很难想象我们能达到足够的观察结果。”

穆尔科始终务实，专注于下一步。 “问题是，可以采取什么措施来加速额外数据的沉积？”他问道。

如果行业团体能够将其结构数据集中在一起，这可能会促进进展。那些处于基于结构的药物设计前沿的人们正在积累大量未输入 PDB 的 X 射线数据。例如，勃林格殷格翰在寻找 KRAS 抑制剂的过程中，现已解析出与不同配体结合的 580 个 KRAS 结构。 “我们在一两个小时内就能解决共晶问题，”奥地利勃林格殷格翰研究中心负责人达里尔·麦康奈尔 (Darryl McConnell) 说道，他正在那里开发一种“X 射线优先”的药物化学方法。

该数据集是 KRAS 领域 BI 的竞争优势，但来自遗留程序的大量已解决的配体结合结构被锁定在整个行业的内部数据库中。

“这是一个机会，”麦康奈尔说。 “也许需要 PDB plus。”

贝克希望这样的努力能够成功。 “如果这些数据集可用，那么很可能就有足够的数据来解决蛋白质配体问题，”他说。

该数据集还可能有助于未来的算法更好地预测感兴趣蛋白质的配体结合构象。

业界愿望清单上的其他功能包括预测蛋白质-蛋白质、蛋白质-DNA 和蛋白质-RNA 复合物结构的能力，以及预测点突变影响的能力。

其中一些可能会比其他的来得更早。 AlphaFold 没有经过明确的训练来预测蛋白质-蛋白质相互作用的结构，但 Baker 的工作表明这是可能的。作为 RoseTTAFold 的一个案例研究，他的团队预测了与 IL-12 受体结合的 IL-12 细胞因子的结构，这是确定干预相互作用的方法的关键一步。

小分子药物研发者和从头治疗性蛋白质设计者或许能够利用这些见解。 “我们现在确实做了很多这样的事情，”领先的从头蛋白质设计师贝克说。

几年前，贝克的实验室设计了一种 IL-2/IL-15 的从头模拟物，被许可人 Neoleukin Therapeutics 现已将其推进临床。但识别按预期折叠的从头候选者仍然是限制速度的研究步骤。他的团队正在评估新的折叠预测算法是否可以降低实验开销。 “几个月后问我。但我们预计成功率将大幅提高，”他说。

深奥的问题

DeepMind 已经启动了这些可能性，但尚未披露其深度学习系统的研究或商业计划。但它正在考虑其选择。 “我们的很多时间都花在了解决这个问题上。但我们现在正在盘点，并试图真正确定我们的前进方向和未来方向，”Jumper 说。 “我们不会收拾好玩具回家。”

DeepMind 研究主管 Pushmeet Kohli 补充说，甚至可能已经有足够的数据来承担一些更雄心勃勃的应用程序。 “需要多少数据是一个棘手的问题，因为这取决于你的机器学习模型。”

如果未来的模型可以教授物理和化学，它们可能会提供更大的结构生物学益处。

这个机会，加上进展的步伐，甚至让实验者也感到乐观。 “看到这个领域发展得如此之快，真是令人兴奋，”马歇尔说。 “考虑到从第一个 AlphaFold 到 AlphaFold2 的轨迹，我预计在未来 2-5 年内会看到快速发展。”