CB-Dock

最新推荐文章于 2025-01-05 12:14:44 发布

NDLilaco

最新推荐文章于 2025-01-05 12:14:44 发布

阅读量2.1k

点赞数

文章标签：分子对接

CB-Dock是一个用户友好的盲对接web服务器，利用曲率检测方法预测蛋白质结合位点并用AutodockVina进行对接。它在预测结合模式方面表现出色，成功率达到约70%，优于其他先进工具。该工具提供结合模式的3D可视化，并且特别适合于发现未知的结合模式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在这里插入图片描述

1 主要工作

为了在没有结合位点信息的情况下自动预测结合模式，我们开发了一个用户友好的盲对接web服务器，名为CB-Dock，它使用一种新的基于曲率的空腔检测方法计算中心和大小来预测给定蛋白质的结合位点，并使用流行的对接程序Autodock Vina进行对接。该方法经过了仔细优化，在与x射线姿势的均方根偏差(RMSD)在2 Å范围内的顶级姿势中达到了约70%的成功率，在我们的基准测试中优于最先进的盲对接工具。CB-Dock还根据Vina评分对结合模式进行了排名，并提供了绑定模式的交互式3D可视化，可在http://cao.labshare.cn/cb-dock/免费获得。

2 intro

蛋白质-配体对接被广泛应用于预测配体的结合模式和亲和力。蛋白质配体对接是计算机辅助药物发现(CADD)的有力工具。大多数对接工具都需要事先确定配体结合区域(配体在该区域的旋转和平移)，以寻找能量最有利的结合方式。结合区域通常表示为一个立方盒子，因此它的大小和中心对于精确对接至关重要，因为它定义了构象采样空间的边界。在很多应用场景中，结合区域是未知的。为了识别给定蛋白质与配体之间的潜在相互作用，必须对整个蛋白质表面进行对接，以找到最可能的结合模式。这一过程称为盲对接。与常规对接相比，盲对接的可靠性和稳定性较差，因为对接空间往往太大，无法通过有限的随机搜索进行足够的采样。然而，盲对接对于发现可能在未知绑定模式中发生的意外交互特别有价值。

传统上，盲对接是在整个蛋白质表面进行的。另外，对给定蛋白质的假定结合区域进行对接，通常可以提高采样效率，降低盲对接的计算成本。目前已经开发了许多结合位点检测工具。**这些方法可以帮助用户找到可能与配体结合的残基。然而，用户必须将残基分组，手动估计参数，然后进行多轮蛋白质配体对接才能获得最终结果。**该工艺虽然可行，但效率不高，尚未进行系统优化。为了解决这一问题，近年来开发了几种盲对接工具，它们将空腔检测与聚焦对接模块集成在一起。例如，流行软件SwissDock、QuickVina-W a nd BSP - SLIM为盲对接提供了特别有价值的服务。

3 实验方法

3.1 PDBbind数据集

从PDBbind (v2018)中筛选出1684个蛋白配体结构。蛋白质的分子量限制在150~500 g/mol，可旋转键数在10个以内。此外，与Astex diversity Set或MTiAutoDock数据具有60%或以上相似性的蛋白质被剔除。

3.2 Astex diversity Set

Astex diversity Set包含从Protein Data Bank下载的85个蛋白配体复合物。多余的链、水分子和杂原子被丢弃。

3.3 MTiAutoDock Set

测试数据来自MTiOpenScreen的基准测试集。数据包含27个晶体结构，涵盖了重要的药物靶点，包括酶、GPCRs、核受体和PPIs.

3.4 Apo Structure Set

Astex diversity Set由蛋白质配体复合物(holo)结构组成。为了测试蛋白质的非结合态(apo)对接，我们收集了Astex diversity Set中可用的19个apo蛋白结构。每个载脂蛋白结构对应于Astex多样性集中的一个全息结构。每对序列的同一性和覆盖率均大于95%。为了比较对接结果的准确性，我们将每个apo结构叠加到相应的holo结构上。

3.5传统的盲对接和再对接

传统的盲对接的参数是按照Di Muzio等人的协议描述的，对接中心是蛋白质的所有重原子的空间几何中心。为了获得对接盒的大小，计算中心和每个原子之间沿三条轴（X、Y和Z）的距离。然后，沿每个维度的距离的最大值被加倍，并增加一个额外的5Å作为对接盒的大小。
再对接是与已知的结合位点重新对接。对接参数按照Wei和Michal的方法得到。总的来说，搜索框大小等于配体旋转半径的2.857倍，使用AutoDock Vina时始终获得最高的预测精度。

4 结果

4.1 检测蛋白质上的空腔

由于只有足够大的相互作用界面才能获得高亲和力，大多数小分子结合都发生在蛋白质口袋或空腔中。CB-Dock搜索凹面以检测空腔。简单地说，CB-Dock生成一组点来表示溶剂可达曲面，并使用我们之前工作的方法计算每个点的曲率因子。这些凹面上的点(曲率因子> 8)通过基于密度峰值的聚类算法进行聚类。因此，我们得到了几个表示蛋白质表面空腔的点簇。这些空腔根据大小排列。我们将我们的方法(称为CurPocket)与使用COACH基准集进行了比较。结果表明，我们的方法在Matthews相关系数、精密度和查全率方面与COACH方法相当(见补充表S1)。与传统的绑定位点预测方法不同，我们的方法尽可能多地检测真实的绑定腔，为盲对接提供选择。为了研究其检测真实结合腔的性能，我们从PDBbind向CurPocket提交了1684个结构(参见材料和方法部分)，并通过比较来自晶体结构的前10个结合腔来检查它们的成功率。测试结果显示，前1 ~ 10个空腔的预测成功率分别从63.7%提高到92.4%(图1b)。从前10名到前5名，成功率仅下降2%。为了平衡计算成本和空腔检测精度，我们选择了前5个空腔作为重点对接的候选。

4.2 计算对接盒子的中心和大小

对于假定的空腔，CB-Dock需要为下面的计算一个对接盒子。一个好的对接盒子应该包含原始对接姿势，并尽可能排除不相关的姿势。对接盒子的中心和大小是这个过程中的关键参数。配体的中心来自晶体结构是对接盒子的最佳选择;然而，这些参数只能基于假定的腔体和未结合配体估计中心和大小。
因此，我们首先选择假定腔体的中心，即凹面上的点的中心作为对接中心。为了量化它与最佳中心的偏差，我们使用PDBbind数据集计算了两个中心之间的距离(参见材料和方法部分)。真实目标空腔与假定目标空腔中心之间的距离分布在1 ~ 10 Å(图2a)。大部分数据(76.6%)的距离在5 Å以内，当距离在10 Å以内时达到97.7%。结果表明，在大部分数据中，空腔中心接近理想中心。其次，我们需要确定对接盒在每个维度上的长度，这与腔体的大小、配体的大小以及假定中心与理想中心的偏差有关。在系统检查对接结果后，我们最终计算出对接箱的i轴长度Li为常数x +给定配体的假定腔体长度Ci的最大值或给定配体的旋转半径R:
$L_i=x+max(R,C_i)$

常数x用于补偿假定中心的偏差，并确保配体封闭在对接箱内。为了确定x，我们测试了上述蛋白质配体结构，通过x从0逐渐增加到12，来研究包围配体的对接盒的比例(图2b)。结果表明，当x从0增加到5 Å时，比例迅速增长。当x为10 Å时，所有配体都封闭在对接箱内。因此，我们在程序中选择x = 10 Å。详细分析表明，按上述公式设计的对接箱尺寸大多小于推荐的上限范围内30 Å。

4.3空腔检测的指导改进盲目对接

为了评估CB-Dock的性能，我们将其与使用Astex diversity Set的蛋白质配体复合物的传统盲对接进行了比较。此外，为了确定这种盲对接的上限，我们还对从晶体结构中获得的对接盒的中心和尺寸进行了重新对接测试。我们用RMSD测量了晶体结构中最低对接分数的预测结合模式与原生模式之间的精度。
结果表明，对于传统的盲对接、再对接和CB-Dock，预测精度分别为38.8%、76.5%和69.4%。正如我们预期的那样，CB-Dock比传统的盲对接有了显著的改进(提高了30%)，整体精度更接近于重新对接和使用Autodock Vina对接。特别是，当预测正确时，CB-Dock和redock的RMSD值几乎相同。该结果表明，CB-Dock的空腔检测和对接参数均有较好的效果。由于AutoDock Vina基于随机算法，其结果可能与重复运行不同，我们重复了3轮测试，以考察三种方法的稳定性。结果表明，CB-Dock和重新对接的RMSD变化幅度小于5%，而传统盲对接的RMSD变化幅度高达10%。**我们认为CB-Dock适当地减小了采样空间，从而降低了结果的随机性。总之，空腔检测是改进盲对接的有力手段。

4.4 CB-Dock与现有盲对接工具的比较

为了获得CB-Dock的整体性能，我们进一步将其与DockingApp、MTiAutoDock、rDock和SwissDock等四种最先进的对接工具进行了比较。虽然这些工具提供了多种用途，但我们主要关注它们的盲对接性能。DockingApp通过AutoDock Vina搜索整个蛋白质表面的结合位点。MTiAutoDock使用相同的策略，但由AutoDock 4.2.6提供支持。rDock和SwissDock在预测的空腔附近进行对接。与CBDock中基于曲率的空腔检测不同，rDock使用双探针球方法，而SwissDock使用基于网格的LIGSITE算法的变体来识别空腔。总的来说，DockingApp和MTiAutoDock遵循传统策略，而rDock、SwissDock和CB-Dock只允许在假定的绑定区域进行对接。我们对Astex多元集和MTiAutoDock数据进行了基准测试。在第一个数据集中，DockingApp、MTiAutoDock、rDock、SwissDock(精确模式)和CBDock在晶体结构RMSD为2 Å的范围内分别获得了42.4%、42.4%、41.2%、53.0%和69.4%的顶级姿势成功率(图4a)。在第二组中，五种工具的成功率分别为33.3%、51.9%、33.3%、70.4%和74.1%。这两个基准测试都表明，在顶级姿势的成功率方面，CB-Dock优于其他盲对接工具。

由于盲对接强烈依赖于预测结合位点的准确性，我们进一步比较了正确预测结合位点的平均百分比，结果表明，DockingApp、MTiAutoDock、rDock、SwissDock(精确模式)和CB-Dock在Astex多元集数据上的准确率分别为70.6%、67.1%、71.8%、78.3%和88.2%，在MTiAutoDock数据上的准确率分别为70.4%、70.4%、77.8%、88.9%和100%。这些结果与上述结合位点预测的成功率有很好的相关性，说明了CB-Dock结合位点预测的重要性。

上述测试以蛋白质-配体复合物结构中的配体结合状态（holo）为基准进行盲对接。由于蛋白质的构象变化难以预测，因此在非结合态（apo）结构中的盲对接要具有更大的挑战性。我们使用Astex Diverse Set中的19个apo晶体结构进行了盲对接。结果显示，DockingApp、MTiAutoDock、rDock、SwissDock（精确模式）和CB-Dock的前一名预测中，正确预测的结合点的平均百分比分别为47.4%、36.8%、47.4%、31.6%和68.4%。RMSDs表现出类似的趋势。排名靠前的成功率在RMSD为5 Å的范围内，排名靠前的站点的成功率为36.8%、 31.6%，42.1%，26.3%，和63.2%。CB-Dock 在Apo结构组中取得了最高的准确性。CB-Dock在Apo Structure Set中达到了最高的精度。然而，成功率明显低于holo structure set。分析表明，apo和holo结构之间的构象差异可能导致两种类型的不准确对接。一种是CB-Dock识别准确的对接腔;然而，apo和holo结构的空腔的构象有所不同。如果差异对结合至关重要，那么对接可能不准确。

计算速度是对接在高通量虚拟筛选中的另一个关键特征。由于只有DockingApp、rDock和CB-Dock提供了独立版本，因此分析了这三种盲对接工具的时间消耗。结果表明，在AMD Ryzen1700处理器上，在Astex diversity Set上DockingApp、rDock和CB-Dock的平均运行时间分别为44.4、75.8和62.7 s。详细数据显示，CB-Dock和DockApp的运行时间与蛋白质的大小(残基数)没有任何相关性，但与配体的柔韧性(通过可旋转键的数量来量化)有轻微的相关性。相比之下，rDock的时间消耗与蛋白质的大小有很强的关系，而与配体的灵活性无关。虽然MTiAutoDock和SwissDock没有精确的时间消耗，但根据我们的测试，它们的在线使用时间平均超过10分钟才返回一个对接结果。综上所述，我们认为CB-Dock是一个相对快速的盲对接工具。特别地，CB-Dock的蛋白大小无关特性适用于基于dock的虚拟筛选。

DISCUSSION

CB-Dock是第一个使用AutoDock Vina设计的空腔探测引导盲对接工具。结果表明，CBDock在预测结合位点和结合构象方面优于其他最先进的盲对接工具。这种性能归功于基于曲率的空腔检测，它精确地缩小了对接空间，并为AutoDock Vina优化了参数。

在试验中也发现了CB-Dock的一些缺点。首先，与常规对接相比，CB-Dock需要在5个空腔中迭代进行，时间成本较高。为了减少时间消耗，未来还需要进一步改进空腔检测。其次，如果空腔的尺寸明显大于配体的尺寸，则对接的精度有降低的趋势。这一结果主要与评分函数的准确性有关，评分函数是用来区分全局最小值和局部最小值的。使用一个额外的评分函数来重新排列绑定位置可能是解决这个问题的办法。第三，CB-Dock需要提高apo structures对接的精度。与 holo structures相比，apo structures在配体结合位点表现出构象重排，这在当前的CB-Dock软件中尚未被捕获。在接下来的CB-Dock开发中，将在CB-Dock中加入蛋白质构象采样方法，以增强apo structures的对接。除了盲对接功能之外，用户友好界面对于对接工具也非常重要。CB-Dock提供了一个方便的网络服务，即使是非专业用户也可以执行蛋白质配体对接并以3D方式可视化结果。我们相信CB-Dock可以帮助表征新确定的蛋白质结构，并为生物学和药学研究提供新的治疗靶点。