delta_LinF9_XGB

Delta Machine Learning to Improve Scoring-Ranking-Screening Performances of Protein−Ligand Scoring Functions

Abstract:

蛋白-配体打分函数被广泛的应用于基于结构的药物设计中,为了快速评估蛋白-配体之间的相互作用,利用机器学习方法开发打分函数是一个值得研究的方向。在本研究中,通过扩展训练集、开发有意义的物理特征,以及使用我们最近开发的线性经验打分函数Lin_F9作为基准,并采用极端梯度增强(XGBoost)与 Δ-machine learning,进一步提高机器学习打分函数的鲁棒性和适用性。除了在CASF-2016基准的评分-排名-筛选能力测试中取得领先的性能外,新的评分功能ΔLin_F9XGB 还在模拟真实对接应用的不同结构类型中取得了卓越的评分和排名。ΔLin_F9XGB对CASF-2016核心集的局部优化构象(local optimized poses)、柔性重对接构象(flexible redocked poses)、集成对接构象(ensemble docked poses)的打分,其Pearson相关系数(R)值分别为0.853、0.839、0.813。此外在LIT-PCBA数据集上进行基于对接的大规模虚拟筛选测试ΔLin_F9XGB也表现出可靠性和鲁棒性。ΔLin_F9XGB打分函数和代码均可获得。

Feature Generation

整个特征集包括76个蛋白质-配体特征和16个配体特异性特征。该特征集由28个埋藏溶剂可及表面积(bSASA)特征、48个Vina特征、3个水桥特征(bridge water features)、2个β簇特征、1个配体效率(使用Lin_F9评分除以重原子数)和10个RDKit计算的配体描述符组成。

bSASA features

对于bSASA特征,与ΔVinaXGB相同,针对三种不同的结构(复合物、蛋白、配体)计算了总共30个bSASA特征。每个结构包括一个总的bSASA数据和9个基于药效团的bSASA数据,其中药效团的特征基于 SYBYL原子类型和 DOCK 相邻原子。采用 MSMS 程序计算原子的SASA,探测半径为1.0埃, bSASA = SASAunbound - SASAbound。由于卤素原子只出现在配体分子中,我们只保留了基于卤素的bSASA复合物项,以避免基于卤素的bSASA蛋白项的零方差,并避免与基于卤素的bSASA配体项的冗余。这导致在特征集中有28个bSASA数据。

Vina features

不同于ΔVinaXGB中的58个Vina特征,我们使用了48个Vina特征,包含极性-极性、极性-非极性和非极性-非极性相互作用在不同的距离范围使用一系列高斯函数来描述,其中定义的极性和非极性原子是基于XScore原子类型(与Vina一样)。同样,反氢键(anti-hydrogen bond)、氢键和金属-配体在不同距离用不同的高斯函数来描述。反氢键描述的是不可能形成氢键的极性原子。金属-配体术语描述蛋白-配体复合物中金属-配体的相互作用。使用37个高斯函数描述上述相互作用。另外,6个配体特定项和5个相互作用项(1个排斥、2个脱溶、2个静电项)。所以Vina特征集中包含48个特征。

Bridge water features

三个水桥特征(水桥数量、水桥和蛋白之间的Lin_F9打分、水桥和配体之间的Lin_F9打分)被添加到我们的特征集中,这三个特征继承自之前的 ΔVinaXGB。根据以下标准,参与蛋白配体相互作用的共结晶水被认为是水桥分子:
1)同时与配体和蛋白接触,水的氧原子与蛋白配体的极性原子之间的距离应在2.0 ~ 3.5Å 范围内;
2)容易形成氢键网络,其中配体的极性原子、水桥中的氧原子和蛋白中的极性原子之间的角度不小于60度;
3)有利于蛋白配体结合,当使用蛋白或配体作为受体时,水桥的Lin_F9评分为负值。

β-cluster features

此外,我们的特征集还包含两个 β-簇特征(配体BetaScore和配体覆盖率),计算配体和 β-簇重叠来描述潜在的配体口袋互补。β-簇时AlphaSpace2.0 检测到的片段中心口袋的伪分子表示。它模拟了潜在分子粘合剂的形状和原子细节。将每个 β-原子与配体重原子重叠的最佳Lin_F9评分相加得到配体 BetaScore (原子距离 < 1.6埃 表示重叠);这个特征描述了被占口袋的可移植性。配体覆盖度的计算方法是重叠的配体重原子数除以总重原子数。这个特征描述占据口袋的配体原子的百分比。

Ligand descriptors

RDKit 计算每一个配体的 logP 和 拓扑极性表面积(topological polar surface area, TPSA)等描述符,添加到特征集中。

在对接性能评估方面,通过开源工具 DockRMSD计算出得分最高的构象和晶体构象之间的对称校正RMSD。

安装 delta_LinF9_XGB

delta_LinF9_XGB源码以及安装教程,根据github上步骤修改script/runXGB.py、msms/pdb_to_xyzr、script/featureSASA.py即可。

需要的pyhon 软件包,xgboost版本是1.2.0,但是在自己的服务器上版本是1.6.0,会给出报错”AttributeError: ‘XGBModel’ object has no attribute ‘callbacks’“,使用pip安装1.2.0版本的xgboost就没有问题

运行delta_LinF9_XGB命令:

python script/runXGB.py test/1e66_wat/1e66_protein.pdb test/1e66_wat/1e66_ligand.mol2 | grep 'XGB'

如果有侵权,请联系我删除

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值