DrugVQA

最新推荐文章于 2023-08-29 20:31:17 发布

weixin_40248634

最新推荐文章于 2023-08-29 20:31:17 发布

阅读量721

点赞数 2

分类专栏：图卷积

本文链接：https://blog.csdn.net/weixin_40248634/article/details/103090978

版权

图卷积专栏收录该内容

10 篇文章 2 订阅

订阅专栏

Predicting Drug Protein Interaction using Quasi-Visual Question Answering System笔记

摘要：
介绍
模型
训练
实验

摘要：

提出了一个端到端的深度学习框架来预测相互作用，通过将蛋白质表示成来自单体结构（图）的二维距离矩阵，且将药物表示成分子线性结果字符串（string），遵循可视化的问题回答模式。
为了高效的训练系统，我们提出了一个动态的注意力卷积网络来从可变长距离图中学习固定长度的表示，然后用一个自注意力序列模型去自动抽取线性符号的语义特征。

介绍

drugprotein interactions (DPIs)
Visual Question Answering （VQA）
最近药分子的结构特性已经被证实可用深度学习技术通过其的线性表示去准确预测，而一般的蛋白质由于原子数量太多，所以很难进行预测。从1D的序列到3D结构的预测也是一种很大的挑战，称之为蛋白质折叠问题。
这篇文章利用2D距离图去表示蛋白质，可以将DPI任务转化为将传统的视觉问题回答(Visual Question Answering VQA)问题。这里图像（images）是蛋白质距离图（map），问题是药物的分子线性记号，答案是它们是否会相互作用，该框架支持蛋白质单体结构的训练，而不需要具有结合配体的共晶结构，这大大扩展了可用的训练数据集。
主要贡献:
1.这是第一次利用蛋白质2D距离图来预测DPI
2.第一次用VAQ框架来解决DPI预测问题
3.不同水平的数据集证明了我们方法的高效性

模型

问题的标准化

药分子用规则化表示
在这里插入图片描述此外，我们使用以下规则替换了多字符符号:“Br”:R，“Cl”:L，“Si”:A，“Se”:Z
若一个药分子有n个符号，可以表示嵌入成 $M=(t_1,...,t_n)$ ,每个 $t_i$ 是第 i 个符号的d维符号嵌入。于是 $M\in\bm{R}^{n*d}$ 是联合了所有符号的2维矩阵。
类似地，一个蛋白质也可以由一个线性序列组成，这个线性系列包含了一列氨基酸残基。表示为 $P=(r_1,...,r_l)$ , $r_i$ 是有着20种氨基酸类型one-hot表示向量的位置i的元素， $是系列长度$ 。2D匹配计算出距离为
在这里插入图片描述这里 $d(r_i,r_j)$ 是残基的i与j的 $C\alpha$ 原子的距离。 $d_0$ 为常数设置为 $\mathring{A}$ ,蛋白质距离矩阵为 $P=[\hat{s}_(r_i,r_j)]_{l*l}$
[个 Structure 对象的整体布局遵循称为SMCRA（Structure/Model/Chain/Residue/Atom，结构/模型/链/残基/原子）的体系架构：
结构由模型组成
模型由多条链组成
链由残基组成
多个原子构成残基
体系架构图]
DPI的训练目标是将（M,P）作为一对输入，然后得到标签 $y\in\{0,1\}$ ,y=1表示M与P有相互作用。
框架图：
在这里插入图片描述

动态注意力CNN

在这里插入图片描述
Figure 2: Dynamic attentive CNN. It includes two key components:
(a) stacked residual blocks and (b) attention block
模型是由堆积的残差块以及一系列的自注意力块组成，输入是 $P\in{\bm{R}^l*l}$ ,中间 $N_f$ 表示是通道数，这里用的激活函数是指数线性单元图

动态处理

由于氨基酸长度的不确定性，我们将在残差块之间使用0去填充输入矩阵的两边，以确保结果残差块具有与输入相同的大小。则每个残差块的输出结构保持 $l*l*N_f$ 维度。最后使用平均池化压缩高频信息。
在这里插入图片描述

attention 系列

【这里是对蛋白质的处理】
通过平均池化操作我们可以得到蛋白质图 $P_q\in\bm{l*N_f}$ ，可视作蛋白质系列表示， $l$ 表示氨基酸(位点)的数量， $N_f$ 表示位点的空间特征。识别小部分的结合位点对于准确预测药物的作用至关重要。我们采用多头注意力机制去充分利用特征进行分类，figure2 的输入是 $P_q$ ,输出是 $a^p$ .
$a^p = softmax(w_{p2}tanh(W_{p1}P_q^T)$ $\sum_{i=1}^{I}a_i^p=1，1\leq{i}\leq{l}$
$W_{p1}\in\mathbb{R}^{d_a\times{N_f}}$ , $w_{p2}$ 是 $d_p$ 维的参数向量， $d_p$ 是可调整的超参数。这种载体表达通常集中在一系列连续的蛋白质序列位点上。由于一个蛋白质结合容器由多个空间连续领域点组成，所以价格 $w_{p2}$ 转化成为一个矩阵表示为 $W_{p2}$ 。 $a^p$ 被转化为一个多头注意力权重 $A_p\in{\mathbb{R}^{r_p\times{l}}}$ ，即
$A^p = softmax(W_{p2}tanh(W_{p1}P_q^T)$ $\sum_{i=1}^{I}a_i^p=1，1\leq{i}\leq{l}$
这个可当成是一个两层感知器，参数是两个W。
在这里插入图片描述
最后计算出包含节点关系分布的潜在关系的注意力特征图
$P_a=A^pP_q$ $P_a\in\mathbb{R}^{r_p\times{N_f}}$

在这里插入图片描述

自注意力双向LSTM

【这里是对药分子的处理】
每个药分子的SMILES 字符串都被编码陈2维嵌入矩阵 $M\in{\mathbb{R}^{n\times{d}}}$ ,为了建立起每个标志(token vector)向量的依赖性，我们使用了双向LSTM即
$\overrightarrow{h_i}=\overrightarrow{LSTM}(t_i,\overrightarrow{h_{i-1}})$ $\overleftarrow{h_i}=\overleftarrow{LSTM}(t_i,\overleftarrow{h_{i+1}})$
再用 $h_i$ 去替左右h ,即
$h_i=(\overrightarrow{h_i},\overleftarrow{h_i})$ $H=(h_0,...,h_n)$
如果BI-LSTM隐单元设置成u，则H大小为n-by-2u。

类似地，使用多头自注意力机制我们可以将整个LSTM隐含层H作为输入，然后得到
$A_m=softmax(MLP(H_T))$
这里的MLP（多层感知机）的隐含层有 $d_m$ 个，参数为{ ${W_{m1},W{m2}}$ },将符号阵与LSTM隐含阵H相乘可以得到
$M_a=A^mH$
则 $M_a$ 是一个包含了相互作用的符号贡献之间潜在关系的自关注药物分子特征图谱，即 $M_a$ 将不同药分子符号（tokens）之间的相互作用关系都融合起来的了，通过LSTM和自注意力机制。 $M_a$ 的大小为 $r_m\times 2u$ , $r_m$ 是表示注意力向量的可调整超参数。
在这里插入图片描述

分类器

对于 $P_a$ 和 $M_a$ ，我们将所有的attention 向量, 然后标准化结果权重向量使其和为一，这个过程可以使得我们获得更多信息的一维向量 $\hat{P_a}$ 和 $\hat{M_a}$ ，最后
$o=W_0[\hat{P_a}，\hat{M_a}]+b_o$ ,这里 $W_0\in\mathbb{R}^{2*(N_f+2u)}$ , $b_o\in{\mathbb{R}^2}$ 。最后DPI概率为
$p_t=\sigma(o)=\frac{1}{1+e^{-o}}$
$t\in {\{0,1\}}$ ,表示输出有无关系的概率，当t=1时表示成 $\hat y$ 表示有相互作用。
在这里插入图片描述

训练

给定数据集 $D=\{(m_i,p_i,y _i)\}$ ,训练目标最小化交叉熵：
$\mathcal{L}(\theta)=-\sum_{i=1}^{N}y_ilog\hat{y}+(1-y_i)log(1-\hat{y})+\frac{\lambda }{2}||\theta||^2_2$
加了L2 正则化且使用负传播算法训练参数。N表示数据集中的药物-蛋白质对。 $\theta$ 是所有的权重矩阵与偏置向量。

实验

在三个DPI公开数据集: DUD-E dataset, the Human dataset, BindingDB dataset 上评估DrugVQA特性。DUD-E是由囊括8个蛋白质家族的102个个靶蛋白组成，平均每个target（靶向）有224个活性物和超过10000个的诱惑物。计算诱惑物是由物理性质相似但拓扑结构不相似的的活性物组成，最后的数据集包含了22,465个正样本和1,407,145个负样本。我们采用3折交叉验证策略进行训练，不同折依照不同的靶点进行划分，相同靶点的配体(ligands)属于相同的折，为了必买鞍同性质蛋白质的影响，属于相同蛋白质家族的的靶向物也划分到相同的折，为了加速训练，我们采用了平衡数据集（即：所有正例和负例都从靶向物中等价挑选）。
残差块：30个， $N_{f2}=16,N_{f3}=32$
BILSTM 隐含层 u = 64
droupout = 0.2
attention MLPs 隐含层 $d_p=100$
嵌入矩阵蛋白质（ $P_a:r_p\times N_f$ ） $r_p=10$ 即10行；药物( $M_a :r_m\times 2u)$ ) $r_m=18$
L2正则化系数：0.001

代码分析：
对于一个smiles的药分子字符串，先用torch.nn.embedding(input_size,outputsize of every inputsize element), 即将输入向量的每一维数扩展成一长为output_size维的向量个向量。PyTorch快速入门教程七（RNN做自然语言处理） - pytorch中文网

troch.tranpose(x,dim0,dim1)将diim0与dim1对换
tensor.permute(dim0.dim1,dim2)表示维数重新按（dim0,dim1.dim2）排。
torch.sum(seq_embeddings,dim) #将第dim+1个维度变为1，xsize=[20,10],sum(x,1)，则会变成[20,1],相当于把每一行加起来

全文 $n$ 表示的是一个药分子所含有的结构（即对应smiles 中的字符数）故其是一个不固定的数，但经过LSTM与attention其可以变为 $r_m \times 2u$ ,即多头的头数*2倍LSTM的隐含层数。

$\text{precision} = \frac{tp}{tp + fp}$
$\text{recall} = \frac{tp}{tp + fn}$
$accuracy(y,\hat{y}) = \frac{1}{n_{samples}} \sum_{i=0}^{n_{samples}-1}l(\hat{y}_i=y_i)$