【文献阅读】Big data and benchmarking initiatives to bridge the gap from AlphaFold to drug design

QFIUNE

已于 2024-04-07 16:34:03 修改

阅读量895

点赞数 8

分类专栏：生物信息学文章标签：论文阅读深度学习

于 2024-03-21 22:18:16 首次发布

本文链接：https://blog.csdn.net/weixin_42038527/article/details/136914695

版权

生物信息学专栏收录该内容

20 篇文章 22 订阅

订阅专栏

本文讨论了AlphaFold在药物设计中的应用，强调了基准测试和更多实验数据的重要性。文章指出，尽管AlphaFold有突破，但需与分子动力学结合以提高预测精度，同时提倡公共领域数据的使用和无偏基准测试，以促进计算药物设计的进展。

摘要由CSDN通过智能技术生成

今天来精读一篇发在《Nature Chemical Biology》上的最新评论，题目为：Big data and benchmarking initiatives to bridge the gap from AlphaFold to drug design

原文链接如下：

Big data and benchmarking initiatives to bridge the gap from AlphaFold to drug design | Nature Chemical Biologyhttps://www.nature.com/articles/s41589-024-01570-z

这篇评论主要讨论了AlphaFold对药物设计的影响，强调了需要进行基准测试倡议和更多实验数据的重要性。文章探讨了使用预测蛋白质结构进行药物发现时面临的挑战，强调了为了准确发现配体而需要改进模型的重要性。文章还提到了公共领域数据和“Target 2035”倡议在推进计算药物设计方法方面的作用。

文章指出：使用预测的蛋白结构进行药物发现时，面临如下的挑战。

部分预测结构的置信度较低，特别是在需要配体、辅因子、肽或底物结合才能呈现出3D折叠结构的关键区域。这些低置信度区域通常位于需要与伴侣蛋白、辅因子、肽或底物结合才能呈现3D折叠结构的区域，可能构成可药物作用的结合口袋的关键区域。
目前的预测技术存在一些限制，例如忽略了氨基酸的翻译后修饰（PTMs），而许多蛋白质通过后翻译修饰调控其功能。这些修饰可能导致蛋白质发生构象变化，这对于药物设计是具有吸引力的过程。
预测的结构对于药物发现的实用性一直备受争议，尤其是在过去几年中进行了大量研究来评估其在结构基础药物设计中的性能。
发现即使在预测结构中识别到可用的结合口袋，其边缘氨基酸残基必须采取精确的构象排列才能容纳给定的小分子配体，这通常无法被正确预测。这对于药物发现的预测蛋白质结构的实用性进行了深入研究。

作者提出了以下建议：

对于虚拟筛选来说，AlphaFold模型本身通常不足以胜任，建议将其与分子动力学等方法结合，以改进结合口袋的结构并预测配体引发的诱导适应构象。
建议在AI预测中增加更多公共领域的实验数据，以训练模型，这也是“Target 2035”倡议的目标。
探讨是否将AlphaFold生成的结合口袋的构象集合进行对接是否会带来显著改进。
建议评估在使用AlphaFold结构时引入受体灵活性进行配体结合模拟的效果。
强调了对蛋白质-配体预测方法进行无偏见的基准测试至关重要，例如通过类似于CACHE的竞赛来提高小分子-蛋白质预测算法的性能。

中文题目：从AlphaFold到药物设计的大数据和基准倡议，以弥合差距

AlphaFold在蛋白结构预测方面是一项突破，但其在计算和结构导向的药物发现中仍存在局限性。与蛋白结构预测一样，公共领域数据和基准倡议将对推动计算药物设计领域的发展至关重要。

配体结合的蛋白药物靶标的计算建模在药物发现的早期阶段发挥着重要作用。然而，在AlphaFold及其同行发布之前，许多靶标缺乏结构模型，阻碍了这一研究方向。最近大规模蛋白结构预测技术的出现导致了许多领域的范式转变【paradigm shift】，即来自不同学科的科学家如何考虑、审查和利用3D蛋白结构。自AlphaFold最初发布以来，因其广泛的实用性和潜力而备受赞誉，并激发了一批专家积极构建自己的基础研究技术。AlphaFold在基于结构的药物发现和相关计算化学方法中的应用受到药物专家的密切关注，揭示了在相关工作中利用预测结构的优势和劣势。最近的研究以及人工智能在计算药物发现中的潜能不断增长，强调了【underscore】需要更多实验数据来训练机器学习模型和持续进行基准测试以加速该领域的发展。

开放数据促进了结构预测的突破

结构预测算法的突破得益于两个关键领域的交汇【confluence】。人工智能和深度学习方法的最新进展利用了大量公开许可的蛋白实验结构数据，这些数据由全球范围内的结构生物学家在过去50年中生成并存储在蛋白数据库（PDB）中。这一丰富的数据库包含了来自结构基因组学项目（如NIH蛋白质结构倡议）的成千上万个结构，该项目专门致力于增加“新折叠”的结构数量，为开发预测蛋白结构的计算方法提供了关键的训练数据集。

基于人工智能的结构预测方法的优越性通过CASP（Critical Assessment of Protein Structure Prediction，蛋白质结构预测评估）的基准测试得到了证明，该竞赛目前已经进行到第15轮。CASP是一项全球竞赛，旨在评估在实验已经确定的结构但尚未披露的蛋白质结构预测方面的最新技术。每个预测团队的方法是通过评估预测结构相对于参考实验结构的准确性和可靠性来评估的。这种对不同计算策略进行独立验证的机制有助于监测进展，并促使多年来蛋白质结构预测方法的持续改进。尽管取得了进展，但在使用预测结构方面仍存在限制，特别是在药物发现工作中。在这里，作者概述了这一领域【指：药物发现】的一些挑战，并强调了在使用预测蛋白结构进行小分子计算药物设计以及一般计算大分子-配体相互作用分析中进行基准测试的必要性。

在虚拟筛选中使用预测结构的挑战

能够快速准确预测蛋白结构的球状部分能在多种方式上帮助加速药物发现项目的实验结构生物学组成部分。例如，预测结构可以提供关键信息用于设计表达构建，如域边界（domain boundaries），从而实现或加速蛋白的生产或结晶。预测模型还可以用于X射线晶体学，通过分子替代获得初始相【initial phases】，并用于在冷冻电子显微镜图中构建更大的多蛋白复合物。

一个关键问题是许多预测的结构，或者更大结构中的域和区域【r domains and
regions within larger structures】，预测的置信度较低。这些低置信度区域往往位于需要与配体蛋白质、辅因子、肽或底物结合以形成它们的3D折叠结构的区域，并可能构成可药物靶点的关键区域。到目前为止，大多数预测方法受到限制，因为它们将蛋白质视为独立的单体，仅作为蛋白质生成实体，没有考虑其生理活性的同源或异源复合形式。这种限制在对折叠变换蛋白【指：动态的蛋白】进行预测中得到了体现，在这种蛋白中，当与底物、配体或其他蛋白结合时，会引起从基态到激发态的构象变化。AlphaFold2（AF2）在这一类别中的30%案例中未能预测基态构象。为了克服这些挑战，正在迅速推进工作，以“添加”缺失的辅因子，并对蛋白质-蛋白质复合物和蛋白质-核酸复合物进行建模，以改进蛋白质模型。

预测技术的另一个限制是忽略了氨基酸的翻译后修饰（PTM）。许多蛋白，特别是多域蛋白，通过受翻译后修饰调控的构象变化来执行其功能。这种构象变化是通过变构调节剂进行靶向的过程。以Casitas B lymphoma-b (Cbl-b) 为例，Cbl-b是一种调节酪氨酸激酶信号的多域E3泛素连接酶。Cbl-b具有一个包括酪氨酸激酶结合结构域（TKBD）、一个短连接螺旋区域（LHR）和一个RING指环结构域的N-末端区域。最近一项Cbl-b与抑制剂复合物的共晶结构的研究揭示：该抑制剂与TKBD和LHR均发生相互作用，导致Cbl-b呈现出闭合（非活跃）构象（见图1）。相比之下，在其活跃形式中，LHR中的一个关键酪氨酸被磷酸化，引发【trigger】大幅构象变化，导致蛋白质呈现开放构象。在这种情况下，很难事先预测蛋白质在磷酸化或底物结合后所经历的构象变化，以便为抑制剂设计创造出不同的可靶点口袋。此外，在大多数情况下，通过PTM介导的构象状态之间的真正差异并不为人所知，在实验上也很难得到，因此单个AlphaFold预测模型的功能状态可能无法确定。

使用预测结构进行基准测试配体发现

即使在预测结构中确定了可用于药物开发的口袋【pocket】，其内部的侧链也必须采取精确的构象排列，以适应给定的小分子配体，但这通常是无法正确预测的。因此，过去几年来，蛋白质结构预测在药物发现中的实用性一直是研究的焦点。以下我们将重点介绍几项丰富的研究，这些研究对预测蛋白质结构在计算配体发现中的实用性进行了基准测试，评估其在基于结构的药物设计中的表现。

在一项研究中，研究者使用来自Directory of Useful Decoys Enhanced (DUD-E) 基准数据集【这是评估虚拟筛选方法常用的数据集】的已知活性小分子和诱饵分子，这些分子被用于对27个不同蛋白靶点的晶体结构和AF2预测结构进行虚拟筛选，使用了Glide这一知名的虚拟筛选工具。当使用结合口袋被已知配体占据并因此处于有利的配体结合状态的晶体结构时，预测命中的前1%的分子与随机选择相比，活性分子的富集倍数提高了24倍。当使用AF2结构时，富集倍数降至13倍，与使用未被配体占据的apo晶体结构（11倍）相当。这表明，使3D蛋白模型对虚拟筛选最为关键的因素并非模型的来源（AF2与X射线衍射），而是先前已知配体的可用性，使其能够捕获最佳适应药物样分子的结合口袋构象状态。进一步支持这一观点的是，研究中使用AF2模型【这里的模型指结构】获得的富集倍数在虚拟筛选之前的一步中增加到了18倍，该步骤中对口袋结构进行了优化，以更好地容纳已知配体。例如，染色质因子EED的配体结合口袋在AF2模型和在缺乏配体的实验结构中都被侧链遮挡（见图2）。

一项相关研究专注于比较来自PDBbind数据库的2,474个配体-受体蛋白对的对接准确性。尽管41%的化合物在实验结构的2埃【指距离】均方根偏差内被重新对接，但当原始结构原先包含对接的化合物时（这是一个过于简化的预测任务，很少反映基于结构的设计的需求），使用AF2模型时，这一百分比下降到了仅17%。无配体的蛋白晶体结构的成功率甚至更低，仅为10%，这表明无配体的结合口袋的晶体结构平均比AF2模型与配体结合的构象之间的距离更远。再次表明，配体结合蛋白的实验结构是虚拟筛选工作的最佳选择。例如，对于甲基转移酶NSD2的PWWP结构域，在没有配体的晶体结构中，配体结合口袋受到严重遮挡，但在AF2模型中却没有（见图2）。

另一项基准测试并未显示出使用AF2相比于AlphaFold之前的蛋白结构预测工具（如SWISS-Model）在从同源蛋白实验结构中推导出目标蛋白的结构模型时具有显著优势。直接跳过蛋白模型构建步骤，将化合物对接到与配体结合的晶体蛋白同源物上，在预测活性分子方面同样有效，这对蛋白结构预测在合理药物设计中的价值提出了质疑。只有当晶体同源物的序列同一性<30%时，AF2模型才明显优于其他方法，但结果在蛋白质和虚拟筛选工具方面差异很大，活性分子的富集率通常较低。

药物发现中预测技术的前景

这些基准研究集体表明，单独使用AF2模型通常不足以进行虚拟筛选。在某些情况下，AF2模型可能在结构基药物设计中发挥作用，但只有与分子动力学等方法结合使用，以改进结合口袋的结构并预测配体诱导适应构象时，才能产生积极效果。这一发现给虚拟筛选工作带来了重大障碍，特别是对于新型药物靶点类别，因为目前PDB中仅有约20%的结构是与类似药物结合的蛋白质。因此，为了使基于人工智能的预测能够准确地辅助结构基药物发现发挥潜力，需要更多涵盖更广泛的蛋白质-配体结构的公共领域实验数据来更好地训练模型。这是全球“2035年靶标”倡议的目标，该倡议旨在通过2035年确定大多数人类蛋白质的药理调节剂。

与此同时，可能会利用强大但缓慢的计算方法来补充有限的实验数据，就像在相关领域使用了基于量子力学密度泛函理论计算训练的有机分子的深度神经网络（ANI）一样。对配体对AF2生成的结合口袋的构象集进行对接的系统评估是否会带来显著改进也是很有意义的。另外，应该评估在使用AF2结构进行配体结合模拟时，是否可以将受体的灵活性纳入考虑。例如，进行低通量的自由能扰动计算，其中结合口袋具有构象动态性，可以计算给定化学系列化合物的相对亲和力，当使用AF2或晶体结构时，得到了类似的准确性。同一研究小组发现，使用刚性受体进行高通量的虚拟筛选产生了糟糕的结果。最近的一项研究证实了AF2结构对于已知配体的回顾性对接研究效果不佳的结论，但有趣的是，他们发现AF2结构在前瞻性的虚拟筛选工作中取得了更好的结果。作者认为，AF2可以找到与之前的配体不兼容但可以用于寻找新配体的有效结构用于药物设计。

最终，对蛋白质-配体预测的无偏基准测试将推动该领域的发展。例如，CACHE (Critical Assessment of Computational Hit-finding Experiments)提供了一个论坛，供计算社区通过比较和改进性能来前瞻性测试和改进小分子命中算法，并通过预测和实验测试周期来进行，类似于CASP的格式。社区参与诸如CACHE之类的定期基准测试活动对于定义最新技术水平并指导未来发展至关重要。在公共领域数据的增加与稳健的社区认可的基准测试挑战的结合将指导未来几年AI方法的发展，并在药物设计方面取得突破，规模类似于蛋白质折叠预测所见的突破。