今天给大家分享一篇发表在Bioinformatics上的论文:“ PocketDTA: an advanced multimodal architecture for enhanced prediction of drug−target affinity from 3D structural data of target bindin g pockets”。该论文提出了一种基于先进多模态架构的PocketDTA模型,用于从目标结合口袋的3D结构数据中增强药物-目标亲和力的预测。
1介绍
药物-目标亲和力预测是药物发现过程中的关键环节,它依赖于对药物(配体)与目标(通常是蛋白质)之间相互作用强度的准确评估。传统的计算方法,如分子对接(molecular docking)和分子动力学模拟(molecular dynamics simulation),虽然能够精确模拟药物与目标的结合过程,但在面对复杂多变的生物分子结构时,其计算效率和准确性往往受到限制。
近年来,随着人工智能和深度学习的飞速发展,多模态架构在药物-目标亲和力预测中展现出了巨大的潜力。其中,PocketDTA作为一种先进的多模态架构,能够从目标结合口袋的3D结构数据中提取关键信息,从而显著增强药物-目标亲和力的预测能力。在本文中,作者提出了一种名为PocketDTA的新方法,该方法不仅融合了药物和目标的序列与结构信息,还通过几何深度学习技术精确捕捉了目标结合口袋的3D特征。与传统方法相比,PocketDTA在保持较低计算复杂度的同时,实现了更高的预测精度。在与当前最优方法(SOTA)的比较中,PocketDTA在多个评估指标上均展现出了显著优势。
值得注意的是,PocketDTA的成功不仅在于其先进的模型架构,更在于其对数据质量的深刻理解和优化。作者通过提取高置信度的蛋白质3D坐标,并对结合口袋进行预处理,显著提高了模型对药物-目标亲和力的预测能力。这一发现进一步强调了数据质量在推动药物发现领域进步中的重要性。
2模型方法
PocketDTA的总体流程如下:
(A)数据预处理模块:包括更新目标序列、移除冗余样本、获取目标的三维坐标、提取高精度蛋白质结构域以获取精确的三维坐标,以及获取目标结合口袋等步骤。
(B)多模态表示与特征提取模块:涉及药物和目标的序列与结构表征,随后进行特定的特征提取过程。
(C)交互融合模块:将(B)中提取的药物和目标特征进行融合,并使用双线性注意力网络模拟它们之间的相互作用。
GraphMVP-decoder
为了精确捕捉分子3D结构的细微特征,作者开发了GraphMVP-Decoder。该解码器首先根据药物结构表示计算位置嵌入,然后将其整合以保留空间位置信息。接着,解码器使用全连接层进行降维,并对局部特征进行初步提取:
接着作者采用CNN滑动窗口机制对药物局部特征进行进一步细化。此外,为了适应数据的复杂性,作者使用了GLU激活函数,其门控机制相比其他激活函数更有效地过滤输入并突出关键信息。同时,为了提高训练的稳定性并加速收敛速度,作者引入了残差连接、缩放因子和LayerNorm。解码器可以表示为:
GVP-GNN层
为了深入探究目标口袋的几何与空间特征,作者采用了先进的几何向量感知机来建模蛋白质图。GVP被视为线性变换的扩展,能够将特征元组处理成新的元组。最关键的是,GVP具有一个理想的特性:其标量和向量输出在三维欧几里得空间中的旋转和反射操作下表现出不变性和等变性。具体而言,如果,那么对于任何旋转和反射变换R,都有。不变性表明,在变换R下,标量s保持不变,即输出标量不受此类变换的影响。等变性确保对向量应用的任何变换R都会在输出向量中产生相应的变换。这一特性使得GVP在学习三维空间中的几何特征时,相比其他神经网络模型具有更强的表达能力。
GVP-GNN利用GVP来增强模型对几何结构特征的识别能力,通过消息传递机制来更新节点嵌入。GVP-GNN架构包含两层:图传播层和前馈层。图传播层首先根据节点和边嵌入计算一个消息,然后应用这个消息来更新节点嵌入。具体而言,第l层的图传播层可以表示为:
其中,表示第 层中节点 的嵌入, 代表从节点 到节点 的边嵌入, 表示三个堆叠的GVP(几何向量感知机)层, 象征在第 层中从节点传递到节点的消息,而 表示节点的邻接节点集合。随后,前馈层继续对节点嵌入进行细化,这一过程可以描述为:
其中,表示两个堆叠的GVP(几何向量感知机)层。
为了进一步学习目标结合口袋的三维结构信息,作者开发了定制的GVP-GNN层,该层结合了GVP(几何向量感知机)和GVP-GNN,以蛋白质图 作为输入。首先,通过一个单独的GVP层对边和节点特征嵌入进行初步提取。随后,这些数据被共同输入到N层的GVP-GNN中进行信息融合以及节点和边嵌入的更新。最后,通过GVP层对整合后的信息进一步处理,该框架可以描述为:
为了促进后续的特征融合,作者采用了与目标序列表示中相同的操作来转换 。
双线性注意力网络
为了构建包含全局和局部信息的药物靶点多模态表示,执行以下操作:其中, 和 。
输入D = [d1, d2, …, dm+1]ᵀ 和 T = [t1, t2, …, tp+1]ᵀ 分别通过简单的线性层和ReLU激活函数映射到一个共享的特征空间。然后,使用Hadamard积计算它们之间的成对交互矩阵
其中, 表示可学习的权重向量,表示Hadamard积(元素对应相乘),权重矩阵,,以及Dropout操作 是一个随机丢弃操作。为了更清晰地理解双线性交互权重矩阵,矩阵A中的元素可以表示为:
接着,为了得到交互表示,作者通过双线性乘积来构造:
随后,对交互表示向量J进行池化和归一化操作:
最后,将交互表示J0直接输入到多层感知机(MLP)中,以生成预测值y:
3实验与结果
数据集与评估指标
实验中,使用了两个公开可用的基准数据集,即 Davis 和 KIBA ,来评估 PocketDTA 的性能。
评价指标包括均方误差(MSE)、一致性指数(CI)、决定系数(r²)、皮尔逊相关系数(Pearson)和斯皮尔曼等级相关系数(Spearman)等统计指标。
对比实验
各种表示方法的比较分析
-
在实验中研究了各种药物及其靶标的序列和结构特征,以确定最适合药物-靶标亲和力(DTA)任务的特征。
-
在药物序列表示方面,评估了Morgan指纹、Mol2Vec和Mole-BERT等分子嵌入方法。研究结果表明,在两个基准数据集上,根据所有性能评价指标,Morgan指纹的表现均优于其他方法
-
在药物结构表示方面,比较了GraphMVP、GraphMVP-C、GraphMVP-G和3Dinfomax等方法。在这些方法中,GraphMVP表现最佳,超越了其他技术
-
在靶标序列表示方面,评估了领先的蛋白质预训练模型的嵌入:ESM-2、ProtBert和ProtT5。图3C显示,在Davis数据集上,ProtBert的表现优于其他模型,而ESM-2在KIBA数据集上表现最佳。
-
在靶标结构表示方面,评估了从原始和处理后的蛋白质三维坐标预测中得出的前三个结合口袋的总序列长度和平均pLDDT值分布。结果表明,更高置信度的结构信息可以提高性能,这表明数据质量的改进对于推动药物-靶标亲和力(DTA)领域的发展至关重要。
图1.基准数据集上各种表示方法的MSE条形箱形图比较分析
评估口袋数量变化的影响
表1. 基准数据集上不同口袋数量情境下预测结果的比较分析。
如表1所示,在所有评估指标中,使用前3个预测的结合口袋作为靶标结构输入获得了最佳性能。此外,由于前3个口袋已经包含了大多数的结合位点,因此决定选择前3个结合口袋。
与SOTA方法的性能比较评估
表2. PocketDTA与其他SOTA模型在基准数据集上的性能比较分析。
如表2所示,在两个基准数据集上,采用一致的实验设置,对PocketDTA与当前最优技术方法(包括DeepDTA、GraphDTA、FusionDTA、MGraphDTA、3DProtDTA、NHGNNDTA和MDFDTA)进行了比较评估。
冷启动实验
使用了三种新颖的数据集分割策略:冷药物、冷靶标和全部冷启动,以评估DTA模型的泛化性能。表3展示了KIBA数据集上的冷启动实验结果。与其他基准模型相比,PocketDTA在三种数据分割方法下均表现出优越的预测性能,凸显了模型适应新环境的鲁棒性。
表3. KIBA数据集现实设置下的性能评估。
4总结
本文介绍了一种新的端到端药物-靶标亲和力(DTA)预测方法——PocketDTA,该方法在数据集质量提升、3D结构信息的有效利用、多模态生物表征以及局部相互作用的可解释性方面做出了重要贡献。在实际应用于药物筛选时,该模型仍存在局限性。由于训练集中亲和力值分布不均,导致预测结果也出现了类似的聚合现象。因此,扩展和多样化DTA基准数据集被认为是提高深度学习DTA模型泛化能力的关键。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。