药物靶标相互作用drug-target interactions(DTI)论文模型创新点汇总
一、A pseudo-label supervised graph fusion attention network for drug-target interaction prediction
主要贡献:
- 创新的图表示方法:提出了一种新的针对药物-靶标对(DTP)网络的图表示方法,该方法利用节点特征之间的距离来构建远邻图。这种方法通过连接远距离的节点,有效地捕获它们之间的差异性,并丰富了从拓扑图中获得的信息,从而为DTP网络提供了更全面的表示。
- 自适应图设计:在PSF-DTI中设计了一种带有可优化邻接矩阵的自适应图。这种动态图结构克服了静态图在分类任务中的局限性。此外,通过整合注意力机制来融合来自三种不同图表示的特征,从而得到更精确的DTP特征信息。
- 伪标签分配机制:将伪标签分配机制引入DTI预测任务,并提出了一种独特的伪标签分配方法。利用未标记数据辅助模型训练,显著增强了模型在面对稀缺DTI标记数据时的泛化能力。
模型:
- (A)采用重新开始随机游走(RWR)方法和去噪自动编码器(DAE)从药物和靶标的相似性矩阵中提取低维特征。通过结合这些特征,生成初始表示DTP,从而构建DTP网络的拓扑图、远邻图和自适应图。
- (B)该算法利用3个GCN分别处理拓扑图、远邻图和自适应图,并利用注意机制进行信息整合,得到DTP节点的最终表示图。
- (C)基于DTP之间的特征相似性将伪标签分配给未标记的DTP节点。损失函数考虑了标记样本的损失和伪标记监督的损失。
DAE结构图。包括向输入数据添加噪声的过程、DAE内的编码和解码步骤以及低维特征的提取。
二、Interpretable bilinear attention network with domain adaptation improves drug-target prediction
主要贡献:
- 双线性注意力网络(Bilinear Attention Network, BAN):引入双线性注意力机制来显式学习药物和靶标之间的局部相互作用。这种机制允许模型在药物分子的不同部分(如原子)和靶标蛋白质的不同部分(如氨基酸残基)之间捕捉复杂的相互作用,从而提高预测的准确性和可解释性。
- 领域适应(Domain Adaptation):通过条件领域对抗学习(Conditional Adversarial Domain Adaptation, CDAN)来对齐不同分布之间的数据,以提高模型在新药物-靶标对上的泛化能力。这种方法特别适用于处理训练数据和测试数据来自不同分布的情况,有助于模型在实际应用中更好地适应未知数据。
模型:
三、A Cross-Field Fusion Strategy for Drug–Target Interaction Prediction
主要贡献:
- 提出利用双通道网络结构进行跨领域监督学习。
- 通过融合局部和全局蛋白质信息来提高对新药物和靶标的预测准确性。
模型:
- 双通道网络结构:模型由两个相似的通道组成,分别是药物-靶标相互作用(DTI)通道和蛋白质-蛋白质相互作用(PPI)通道。这两个通道共享蛋白质编码器,以整合跨领域的蛋白质信息。
Transformer编码器: - 蛋白质序列编码:模型使用Transformer编码器来处理输入的蛋白质氨基酸序列。每个氨基酸被初始化为一个可学习的嵌入向量,然后通过Transformer编码器将其转换为一个高维特征矩阵。(获取更多蛋白质信息)
四、MMDG-DTI: Drug–target interaction prediction via multimodal feature fusion and domain generalization
创新点:
- 提出了基于大型语言模型的文本特征提取器,用于蛋白质和药物特征表示,增强了泛化能力。
- 提出了基于混合GNN的结构特征提取器,补充了拓扑特征。
- 设计了一种创新的分类器,融合了文本和结构特征,并通过领域泛化减轻了过拟合问题。
模型:
它有五个主要组成部分:文本特征提取器、结构特征提取器、分类器和两个领域泛化模块,即领域对抗训练(DAT)和对比学习
文本特征提取器:利用预训练的大型语言模型(LLMs),例如BERT,来处理药物和靶标蛋白的文本表示。
结构特征提取器:基于混合图神经网络(GNN)构建,用于从药物的分子结构和靶标蛋白的序列中提取结构特征。
分类器:用于融合基于LLM的文本特征和基于GNN的结构特征,以进行更全面的DTI预测。通过领域泛化技术减轻模型对特定领域信息的过度拟合问题。
领域对抗训练(DAT):一种领域泛化技术,通过对抗性训练减少不同领域数据分布之间的差异。通过最小化领域分类器对源域和目标域数据的区分能力,提高模型在新领域的泛化能力。
对比学习:另一种领域泛化技术,特别适用于单源领域泛化场景,不需要领域标签。通过对比正负样本对的特征表示,增强模型对领域不变特征的识别能力,从而提高跨域泛化性能。
五、BINDTI: A bi-directional Intention network for drug-target interaction identification based on attention mechanisms
创新点:
- 通过卷积和自注意力机制编码蛋白质特征。
- 利用双向意图网络融合药物和靶点特征。
- 双向意图网络的作用:药物和靶标之间的相互作用不仅取决于药物如何影响靶标,还取决于靶标如何影响药物。这种双向的视角有助于更全面地理解两者之间的复杂关系。
模型:
- 药物特征编码:
药物的SMILES字符串被转换成2D分子图。
使用图卷积网络(GCN)对分子图进行编码,提取药物的特征。 - 双向意图网络:
该网络包含两个方向的意图模块,分别用于药物到靶标和靶标到药物的特征融合。
多头注意力机制和意图机制被用来加强特征的表示能力。 - 特征融合:
药物和靶标的特征通过双向意图网络进行融合,形成综合了双向信息的交互特征。
六、GraphormerDTI: A graph transformer-based approach for drug-target interaction prediction
改进目标:
现有的DTI识别机器学习方法未能充分利用候选分子的拓扑结构信息,提出新方法提取分子信息。
创新点:
-
图变换器(Graph Transformer)网络的应用:
GraphormerDTI 利用图变换器神经网络来构建药物分子的表示。这种网络通过迭代的基于 Transformer 的消息传递机制,将分子图嵌入到向量格式的表示中,从而编码分子的结构特征。 -
结构特征编码:
模型通过节点中心性编码、节点空间编码和边缘编码来捕捉药物分子的拓扑结构信息。这些编码方式有助于模型更好地理解分子中不同原子的相对重要性、原子之间的结构距离以及化学键的类型。
模型:
GraphormerDTI模型由三个主要部分组成:药物表示学习组件、蛋白质表示学习组件和药物-蛋白质相互作用学习组件。
- 模型的输入包括药物分子的分子图和目标蛋白的氨基酸序列。
- 模型通过12层图变换器(Graph Transformer)和3层1D-CNN来提取药物和蛋白质的特征。
- 然后,使用注意力层来编码药物和蛋白质特征之间的关系,并将得到的决策向量输入到全连接神经网络(FCNN)以预测药物分子与目标蛋白之间的相互作用。
可采用方法:
用于提取分子信息的十二层多头自注意力以及使用的编码方案。
七、GSRF‑DTI: a framework for drug‑target interaction prediction based on a drug‑target pair network and representation learning on a large graph
创新点:
-
整合多种生物实体的关联信息:
框架不仅考虑了药物和靶标的相互作用,还整合了疾病、药物副作用和药物-靶标相互作用等七种类型的网络信息,以提高预测的准确性。 -
GraphSAGE算法的应用:
GSRF-DTI 使用 GraphSAGE 算法在大规模图网络上进行表示学习,这使得模型能够在训练过程中直接计算出看不见的数据,而无需重新学习整个图。 -
随机森林(RF)分类器:
通过将 GraphSAGE 学习到的潜在网络特征输入到随机森林分类器中,GSRF-DTI 能够预测药物和靶标之间的相互作用。
模型:
- a基于药物/靶标相关网络的相似性计算,构建药物/靶标相似性矩阵,并将相似性矩阵整合为药物/靶标齐次矩阵。
- b将Deepwalk算法应用于齐次矩阵以生成药物和靶标的特征FD和FP嵌入。
- c建立药物-目标配对网络。网络节点的初始特征FDTP由相应的FD和FP直接连接组成,节点的标签LDTP根据已知的药物-蛋白质相互作用网络确定。然后,GSRF-DTI利用GraphSAGE算法获得新的药靶对节点FDTP的特征表示。最后,用随机森林作为分类器预测药物-靶点相互作用