药物靶标相互作用(五)

一.CPInformer for Efficient and Robust Compound-Protein Interaction Prediction

CPInformer用于高效、鲁棒的复合蛋白质相互作用预测 2023.1 三区

问题:使用GNN、GCN等不足以区分结构相同的药物分子,通过他们得到的特征比较相似,但是与蛋白质作用时候的CPI是完全不同的。TransformerCPI 中过度自注意力机制的堆叠显着提高了模型参数,从而降低了模型在训练和测试阶段的效率。

1.模型

模型CPInformer,通过使用三种特征增强方法。

药物特征:首先,将功能类 FingerPrints (FCFPs,1024维)  与结构 GCN 特征 融合为化合物的最终表示。使用三个全连接层来提取 FCFP 的特征(降到75维),使它们的宽度与复合 GCN 特征图的宽度相同。这有利于特征融合。通过前馈神经网络对结构GCN特征和FCFP进行变换,然后将结构特征矩阵依次与FCFPs转置矩阵和FCFPs矩阵相乘。这种方法类似于自注意力,但主要目标是有效地融合两种不同类型的特征,而不是对提取的特征中的元素执行注意力。并且使用残差链接。得到的药物特征图再经过自注意力模块得到最终的药物特征图

蛋白质特征:使用密集连接结合局部和全局特征来获得多尺度蛋白质特征。根据氨基酸的生化特征将22个氨基酸分为6种类型,再使用多层不同感受野(第n层的卷积核是n*k -1,第一层的卷积核是k.)的CNN将蛋白质特征映射为l*75大小的词向量(l是序列长度)得到了全局特征。而局部特征通过使用密集连接并逐层连接特征图,即下列式子得到。Fp i 是第 i 层获得的特征图,growth是保留率。conv1D是卷积核为15的一维卷积。

使用ProbSparse self-attention(一个有效的基于Transformer 的 LSTF 模型,核心思想就是每个query和序列中所有key点积后,经过softmax得到的离散分布是不同的,通过找到重要的/稀疏的query,从而只计算这些query的attention值,即用Q相同大小的稀疏矩阵Q替换Transformer模型中的查询矩阵来优化计算效率,而且模块能够识别结合位点的程度,并确定它是否属于重要的结构域)(输入是蛋白质特征和未经过自注意力模块的药物特征图)得到最终的蛋白质特征图,以消除信息冗余,提高CPInformer的准确性。ProbSparse selfattention 机制根据 Query 矩阵和 Key 矩阵之间的概率稀疏性对 Query 上的向量进行排序。将靠前的top-u 向量保留为新的查询矩阵,并将其余向量重置为零。新的Q矩阵和Key矩阵生成注意力权重矩阵。

预测相互作用:连接最终的蛋白质特征图和药物特征图,应用两个卷积层和三个全连接层来预测化合物和蛋白质的相互作用。

1.药物表示

SMILES经过GCN得到的图结构,以及FCFP指纹

2.蛋白质表示

氨基酸序列

2.实验

1.数据集

  • 26
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值