DeepMind 的 AlphaProteo：利用机器学习彻底改变蛋白质设计

本文链接：https://blog.csdn.net/ms44/article/details/142257910

AlphaProteo 利用人工智能设计蛋白质

图片由作者使用 AI 创建

生物学是有史以来最强大的技术。DNA 是软件，蛋白质是硬件，细胞是工厂。—— Arvind Gupta

在过去四年中，深度学习加速了生物学研究，尤其是在结构蛋白质组学领域。AlphaFold2是一个突破性时刻，改变了整个科学界对这些模型的态度。深度学习模型首次能够在几秒钟内以前所未有的精度生成蛋白质结构。这改变了一切，因为获取蛋白质结构是一个经济上昂贵且极其费力的过程。AlphaFold2使这个过程变得简单且经济实惠。

然而，AlphaFold2 并不完美。它甚至不是终点，因为对于许多应用来说，了解蛋白质的结构只是开始。例如，结构为我们提供不同的信息，但并未提供其功能、与谁相互作用以及如何激活或阻止它。正因为如此，研究并没有停滞不前，过去三年中出现了几篇论文试图解决 AlphaFold2 留下的问题

迄今为止被忽视的一个方面是，蛋白质不是单子，而是协同工作的。蛋白质的一个关键方面是它与谁相互作用。细胞中的蛋白质与数十种不同的伙伴相互作用，这些相互作用会改变它们的功能，当失调时，会导致病理（从癌症到自身免疫性疾病）。因此，给定一种蛋白质，我们特别想知道它与谁相互作用。

身体中的每个生物过程，从细胞生长到免疫反应，都依赖于称为蛋白质的分子之间的相互作用。就像钥匙开锁一样，一种蛋白质可以与另一种蛋白质结合，帮助调节关键的细胞过程。——来源

然而，在制药领域，人们对调节这些蛋白质很感兴趣。给定一种蛋白质，我们希望找到激活或阻断它的方法。这可以通过几种方式实现：使用小分子或另一种蛋白质本身。例如，关节蛋白是在实验室中创建的另一种蛋白质，将其注射到患者体内，以非常精确地阻断导致疾病的蛋白质（例如，用抗体阻断 TNF-a是几种自身免疫性疾病的治疗方法）。

日前，DeepMind 公布了一个名为 AlphaProteo 的新模型。AlphaProteo 经过训练可以设计出新的高强度蛋白质结合剂。这些蛋白质随后可以阻断生物蛋白质，从而用于新的药物应用。

绘制蛋白质是一项特别有趣的任务，因为它不仅可用于医学，还可用于其他领域的应用。因此，这并不是第一项使用 AI 模型绘制蛋白质的研究

人工智能使从头设计新蛋白质成为可能

人工智能如何生产看不见的蛋白质

medium.com

AlphaProteo 专注于设计能够结合和阻断其他蛋白质的蛋白质。因此，这些蛋白质具有特定功能。事实上，这可以用于许多应用（新药开发、疾病诊断、细胞和组织成像、农业等）。例如，作者描述了 AlphaProteo 设计了一种与癌症和糖尿病相关的VEGF-A蛋白质结合剂（这是一个潜在的目标，但很难阻断）。

AlphaProteo 经过蛋白质数据库(PDB)中的大量蛋白质数据和 AlphaFold 中的 1 亿多条预测结构的训练，已经了解了分子相互结合的无数种方式。给定目标分子的结构和该分子上的一组首选结合位置，AlphaProteo 会生成一个候选蛋白质，该蛋白质在这些位置与目标结合。—来源

与之前的模型一样，DeepMind 使用从蛋白质数据库 (PDB)获得的数据，然后使用社区提供的实验结果。在这种情况下，它还使用 AlphaFold 的预测来补充数据集。

AlphaProteo 利用人工智能设计蛋白质

设计系统示意图。图片来源：此处

然后，他们选择了一组与癌症、炎症和自身免疫性疾病有关的靶蛋白（IL-7Rɑ、PD-L1、TrkA、IL-17A和VEGF-A）和病毒蛋白（BHRF1和SARS-CoV-2）进行阻断。然后，他们生成了几种结合剂候选物，并筛选出最有希望的候选物。

AlphaProteo 利用人工智能设计蛋白质

图片来源：这里

结果令人鼓舞：

成功率高。设计蛋白质非常困难，而且不一定能通过实验生产出来。因此，作者强调这些蛋白质确实可以生产出来，并且可以用于实验。
高结合强度。这些产生的蛋白质与目标具有高亲和力结合（这对于药物来说是一种非常理想的特性）。
多样化结合。该系统可用于提取不同类型的蛋白质，从而可用于各种场景。实验验证与优化。该系统已通过实验结果验证（实验室分析证实了预测结果）。
持续改进。DeepMind 正在继续致力于该项目，以减少该模型的局限性，并使其能够为更复杂的蛋白质创建阻断剂。

AlphaProteo 利用人工智能设计蛋白质

图片来源：这里

我们的结果表明，AlphaProteo 经过一轮中等通量测试后，能够为多种靶标生成低至亚纳摩尔级的结合物。这些结合物分子较小（5-15 kDa）、热稳定性好且表达量高，因此可能已经适合用于某些研究应用，无需进一步优化。—来源

这些结果令人鼓舞，并开辟了医学和其他领域的一系列可能应用。另一方面，有些应用需要更多的测试，然后我们才能考虑用它们来治疗疾病。作者表明，该模型能够以很高的亲和力和成功率绘制蛋白质。在这项工作中，他们使用了特征明确的蛋白质，我们无法知道更复杂的蛋白质会有什么结果。同样，他们没有发布代码，因此社区无法验证这些说法。