AlphaFold2预测结构能否直接用于虚拟筛选?
AlphaFold2已经从CASP14大会上横空出世了好久,也对外共享了预测结构数据库:AlphaFold Protein Structure Database,包含了214,683,839 个结构,其中包括 48 个可供批量下载的完整蛋白质组。对于做计算机辅助药物设计的人而言,以前很多没有结构的蛋白靶点也终于有了结构数据可供分析计算。因此衍生出一个问题:AlphaFold2预测的海量结构能否直接用于开展虚拟筛选?
以下结论与结果来自发表在Protein Sci期刊上的题为“Evaluation of AlphaFold2 structures as docking targets”的论文。
与发表在iScience期刊上题为“How good are AlphaFold models for docking-based virtual screening?”的论文。
1. 结论
-
虽然AlphaFold2能够预测出较为精确的蛋白骨架(Backbone)结构,但在药物结合位点等局部构象预测精度稍低,因此将其直接作为蛋白受体结构进行分子对接结果并不理想。
-
通过去除AlphaFold2预测结构中的低置信区域或使用柔性对接方法针对关键侧链添加柔性等,有助于改善对接结果。
-
AlphaFold2预测结构相较于Apo结构构做对接较为准确,但二者结构的对接成功率均不理想。
2. 实验方法
- 使用AutoDock-GPU作为分子对接工具,在PDBbind V2003数据集中对实验共结晶受体结构和AlphaFold2结构进行配体再对接。
- 使用4种对接软件(AutoDock 4, ICM, rDock, and PLANTS)在 22 个蛋白的基准集中将AlphaFold2预测结构性能与其相应的实验 PDB 结构进行了比较。
3. 结果
3.1 结果总览
\qquad
以最高排名的对接构象的RMSD<2 Å为衡量标准,使用AutoDock‐GPU对晶体结构进行重新对接,成功率为:41%,这与之前发表的AutoDock 4的45%性能相当。相比之下,对接AlphaFold2预测结构的成功率为:17%,如下表所示。
\qquad
对接成功率没有受到复合物低聚物性质的大幅影响。但对含有辅因子的结构,两种方法的结构都表现出较低的对接成功率。
<2 Å RMSD | <2 Å RMSD | 2–5 Å RMSD | 2–5 Å RMSD | >5 Å RMSD | >5 Å RMSD | ||
---|---|---|---|---|---|---|---|
Structures | Number | PDB (%) | AF2 (%) | PDB (%) | AF2 (%) | PDB (%) | AF2 (%) |
All | 2474 | 41 | 17 | 25 | 24 | 34 | 60 |
Monomer | 1797 | 40 | 17 | 24 | 24 | 36 | 59 |
Oligomer | 677 | 44 | 17 | 28 | 22 | 28 | 60 |
No cofactor | 1821 | 47 | 18 | 24 | 22 | 30 | 60 |
Cofactor | 653 | 25 | 15 | 31 | 28 | 44 | 57 |
3.2 低置信区间的结构
\qquad AlphaFold2预测结构文件中包含每个残基在0~100范围内的置信度估计值pLDDT,pLDDT分数越高,置信度越高。当预测AlphaFold2预测的低置信区域位于结合位点附近时,它们可能会影响对接的准确性。删除干扰的低置信的残基并使其具有柔性,从而大大改善了结果。因此,基于AlphaFold2预测结构做对接,需要十分注意结构的质量。
-
pLDDT > 90 的区域预计将以高精度建模。
-
pLDDT 在 70 到 90 之间的区域预计可以很好地建模(通常是良好的主干预测)。
-
pLDDT 在 50 到 70 之间的区域置信度较低,应谨慎对待。
-
pLDDT < 50 的区域的 3D 坐标通常具有带状外观,不应被解释。
3.3 关键侧链添加柔性/柔性对接
\qquad AlphaFold2预测结构侧链的微小变化可能会对分子对接中获得的结果产生非常大的影响,使用AutoDock将AlphaFold2预测结构中的主碳原子Cα旋转来模拟特定的柔性侧链,对接结果明显提高(从0.48 Å 至 1.86 Å)。因此,使用柔性对接方法针对关键侧链添加柔性有助于改善对接结果。
3.4 AF2结构对比Apo结构
\qquad 虽然AlphaFold2预测结构相较于Apo结构的对接成功率更高 (16% vs. 10%),但AlphaFold2与Apo的成功率都较低,这可能是因为二者均结构缺乏诱导构象的配体。
4. 总结
4.1 AlphaFold结构的优势
\qquad 与 PDB 数据库中的实验结构相比,AlphaFold预测结构表现出较低的主链 RMSD 值,从而证明了 AlphaFold 预测蛋白质结构的卓越能力。对于没有结构的蛋白而言,AlphaFold预测的结构都好过于没有结构和传统的同源建模的方法获得的结构。
4.2 AlphaFold结构的局限性
\qquad AlphaFold从给定序列提供的单一结构模型不能代表 (i) 蛋白质的不同生物学状态; (ii) 蛋白质动力学; (iii)结构构象差异,特别是在与配体结合相关的结合位点内。对不处于所需生物状态的受体进行建模是AlphaFold目前的主要局限性之一;尽管AlphaFold模型很可能对应于训练集中最有代表性的状态,但无法预测蛋白的中间态构象。因此,PDB数据库中同一蛋白质的不同结构可能确实在一定程度上代表了结构多样性,而目前这对于AlphaFold模型来说是不可用的。
参考文献
[1]. Holcomb M, Chang YT, Goodsell DS, Forli S. Evaluation of AlphaFold2 structures as docking targets. Protein Sci. 2023 Jan;32(1):e4530. doi: 10.1002/pro.4530. PMID: 36479776; PMCID: PMC9794023.
[2]. Scardino V, Di Filippo JI, Cavasotto CN. How good are AlphaFold models for docking-based virtual screening? iScience. 2022 Dec 30;26(1):105920. doi: 10.1016/j.isci.2022.105920. PMID: 36686396; PMCID: PMC9852548.
[3]. AlphaFold Protein Structure Database: How confident should I be in a prediction?
[4]. Jumper, J et al. Highly accurate protein structure prediction with AlphaFold. Nature (2021).
[5]. Varadi, M et al. AlphaFold Protein Structure Database: massively expanding the structural coverage of protein-sequence space with high-accuracy models. Nucleic Acids Research (2021).