论文解读:《D3CARP: a comprehensive platform with multiple-conformation based docking, ligand similarity search and deep learning approaches for target prediction and virtual screening》
docking, ligand similarity search and deep learning approaches for target
prediction and virtual screening》)
文章地址:https://www.sciencedirect.com/science/article/abs/pii/S0010482523007485
DOI:https://doi.org/10.1016/j.compbiomed.2023.107283
期刊: Computers in Biology and Medicine
2022年影响因子/分区:7.7/二区
发布时间:2023年7月29日
1.文章概述
在传统的药物发现中,耗费资源和时间的生物实验是不可避免的,这直接推动了各种药物-靶点相互作用(DTI)预测计算算法和工具的发展。为了提高预测的可靠性,人们非常期待一个全面的平台,因为之前报道的一些网络服务器规模小,方法单一,甚至停止服务。本研究融合了基于多构象的对接、2D/3D配体相似度搜索和深度学习方法,构建了一个用于靶点预测和虚拟筛选的综合网络服务器D3CARP。具体而言,9352个构象与1970个靶标的阳性对照用于分子对接,约200万个靶标-配体对用于2D/3D配体相似性搜索和深度学习。此外,添加阳性化合物作为参考,并注释治疗靶点的相关疾病,以进一步进行基于疾病的DTI研究。分子对接和深度学习方法的准确率分别为0.44和0.89。5种配体相似性搜索的平均准确率为0.94。D3CARP的优势包括支持多种计算方法、集成对接、利用阳性对照作为参考、预测结果的交叉验证、多样化的疾病类型以及在药物发现中的广泛适用性。D3CARP可在 https://www.d3pharma.com/D3CARP/index.php 免费访问。
2.背景
为了从不同计算工具对DTIs进行全面研究,作者整合了基于多构象的对接、配体相似性搜索和深度学习方法,构建了一个全面的网络服务器,即D3CARP,用于预测给定化合物的潜在靶点,或筛选给定靶点的命中化合物。D3CARP的简要工作流程如图1所示。
3.数据和方法
D3CARP服务器基于PHP开发,托管在Linux服务器上。目标预测和虚拟筛选是该平台的两个主要功能。前者是从各种靶点中识别出能够与某种分子相互作用的潜在靶点,后者是筛选出能够与特定靶点结合的潜在活性化合物。
3.1 基于分子对接的预测平台构建
3.1.1 数据
晶体复杂结构是从PDBbind-CN数据库(2020版)中获得的。每个蛋白质-配体对都用实验测量的结合亲和力进行注释,并且天然配体被视为阳性对照。对接姿势和天然结合姿势之间的均方根偏差(RMSD)< 2 Å被认为是分子对接成功再现实验构象的主要标准。活性化合物的得分普遍低于-5 kcal/mol。因此,进一步进行重新对接,以保持复杂系统的对接分数 < -5 kcal/mol 和 RMSD <2 Å。由于诱导拟合效应和蛋白质构象变化,同一蛋白质不同构象的结合口袋可能存在显着差异,因此这些构象将被保留以代表蛋白质结构的灵活性。此外,作者选择了与高活性分子结合的目标构象作为代表性构象集进行初步研究。总体而言,D3CARP目标数据库由1970个目标和9352个构象组成,其中提取了716个构象作为代表性构象集。
3.1.2 对接参数
软件:AutoDock Vina
3.2 基于配体相似性搜索的预测平台构建
3.2.1 配体数据
来源:BindingDB (更新于 2021 年 11 月 1 日)
包含约 100 万个小分子的超过 200 万个测量的结合亲和力。
3.2.2 配体相似性搜索
配体相似性搜索的主要挑战是准确量化查询分子和参考配体之间的相似性。二维 (2D) 相似度的实际量化通常通过 Tanimoto 系数计算,即两个字符串中共同的正位数除以两个字符串之间的正位数总数。这里,使用三种最常用的分子指纹,即基于路径的指纹 FP2、基于子结构的指纹 FP4 和 MACCS,用于通过 Open Babel(版本 3.1.0)软件计算查询配体与 D3CARP 配体数据库的 2D 相似性。此外,LS-align程序用于进行基于3D结构的配体比对,可以进一步捕获生物相互作用所需的物理和功能特征。考虑到结构和化学差异以及构象变化的结构灵活性,LS-align中的Rigid-LS-align和Flexi-LS-align两个模块被添加到平台中,分别用于刚体和柔性对齐。配体数据库中各分子的最低能量构象是使用RDKit工具包(版本2020.09.5)在MMFF94力场下生成的。用户可以自定义 2D 和 3D 配体相似性搜索的相似性阈值。
3.3 基于深度学习的预测平台构建
3.3.1 数据
在这一部分中,DTI预测分别被定义为分类问题和回归问题。在分类模型中,从BindingDB数据库中提取了生物活性Ki、Kd、IC50或EC50低于10μM的配体-靶标对,总共约120万个阳性条目、787,543个配体SMILES字符串和5901个蛋白质序列。由配体和随机目标组成的相同数量的负条目被添加到数据集中。数字标签 0 和 1 分别代表负数和正数数据对。
回归模型提取了 340,817 个阳性条目、189,849 个配体 SMILES 字符串和 2568 个蛋白质序列。标记的分类和回归数据集均按 98:1:1 的比例分为训练集、验证集和测试集。
3.3.2 深度学习框架
作者利用 消息传递图神经网络模型(Message passing neural networks,MPNN) 和 CNN 通过 DeepPurpose 来学习化合物和蛋白质的关键特征,DeepPurpose 是一个药物虚拟筛选、构效关系及更多用途的深度学习工具包(图 2)。该平台提供了两种预测方法来评估DTI,其中MPNNs-CNN模型是预测其结合可能性的分类模型,MPNNs–CNN–R模型是预测其结合强度的回归模型。此外,还采用准确率(Acc)、精确率(Pre)、召回率、F1评分(F1)、受试者工作特征曲线下面积(AUC)、精确率-召回率曲线下面积(AUPRC)6个评价指标进行评价MPNNs-CNN 模型的预测,而 Pearson 相关系数和 concordance 指数用于评估 MPNNs-CNN-R 模型的预测。
3.4 与目标相关的疾病信息
D3CARP目标数据库中所有目标的相关疾病类型都是从UniProt知识库(UniProtKB)和治疗目标数据库(TTD)收集的。
4.结果
4.1 配体数据库的分子理化性质和化学空间
分析化合物 MW、TPSA、LogP、HBA、HBD 和 nRotB 的分布,以描述 D3CARP 配体数据库的整个物理化学性质概况(图 3A-F)。为了进一步研究配体数据库是否涵盖了大多数上市药物和临床候选药物的化学空间,我们将配体数据库中聚类的 50,000 个代表性化合物与 DrugBank 数据库(版本 5.1.9)中的药物进行了理化性质和结构特征比较。通过PCA分析理化性质所占的空间,结果显示D3CARP与DrugBank中已批准和在研药物的性质具有高度重叠,如图G所示。此外,t-SNE分析显示表明代表性化合物集在分子结构的化学空间分布上更宽,团簇更紧凑和连续,这有利于化合物及其衍生物的目标预测(图H)。至于形状多样性,已批准和在研药物集中在棒状和盘状区域,而 D3CARP 数据库填充了大部分 3D 形状化学空间(图 I)
4.2 目标相关疾病和疾病相关目标
在D3CARP靶点数据库中,所有靶点中有1447个治疗靶点,对应2168种临床疾病,包括癌症、中风、高血压、阿尔茨海默病、疼痛等。阿尔茨海默病与数据库中的15个治疗靶点相关,找到一种或多种可以同时作用于其中多个治疗靶点的药物可能会大大提高药物治疗的疗效(图A)。除了针对人类来源的治疗靶点外,某些疾病还可以通过作用于病毒或细菌靶点来治疗,例如人类免疫缺陷病毒(HIV)疾病(图B)。迄今为止发现的复杂而庞大的靶点和疾病网络表明,单个靶点往往与多种疾病相关,不同的疾病可能有多个相同的治疗靶点,这与许多报道一致。例如,表皮生长因子受体(EGFR)与20种疾病相关。在对接模块中,用户不仅可以选择指定的目标,还可以选择同一疾病对应的多个目标进行后续计算。由于计算速度快,配体相似度模块和深度学习模块默认使用所有内部配体或目标进行计算。
4.3 性能评估
4.4 用于目标预测和虚拟筛选的计算网站
D3CARP 提供简洁且用户友好的 Web 界面。每种方法的任务提交都类似,分为三个步骤:
- 设置作业名称;
- 上传化合物结构;
- 检查指定参数并提交作业。
每种预测方法的输入和输出项如图6所示。用户可以通过上传mol2、mol、sdf或smi格式的化合物文件来提供查询分子,平台将自动进行计算。
在分子对接研究中,输出不仅包括查询分子针对每个目标的对接分数和原子效率,还包括阳性对照的对接分数、原子效率和配体效力,以及之间的2D和3D相似性查询分子和阳性对照。
在配体相似性研究中,输出包含相似分子的结构以及相关的靶标名称、有机体、生物活性(Ki、IC50、Kd 和 EC50)和文献来源。
在深度学习研究中,输出分别是活动预测中的结合可能性和活动值预测中的结合强度。其中,治疗目标的疾病将一起输出。
计算完成后,用户可以在网页上查看并下载结果。