用于药物反应预测的自适应大小的子结构学习

最新推荐文章于 2023-02-25 12:20:38 发布

tzc_fly

最新推荐文章于 2023-02-25 12:20:38 发布

阅读量1.6k

点赞数 3

分类专栏：论文阅读笔记文章标签：药物相互作用子结构学习门限消息传递网络 DDI预测图神经网络

本文链接：https://blog.csdn.net/qq_40943760/article/details/122960946

版权

论文阅读笔记专栏收录该内容

79 篇文章 19 订阅

订阅专栏

子结构学习的引言

药物化学的理论表明，药物是一个简单的实体，其由不同的官能团（或者化学子结构）组成，这些子结构决定了药代动力学特性（生物体如何处理它）和药效学特性（它如何影响生物体），以及最终的交互反应。为此，研究人员提出了基于子结构学习的DDI预测方法。

首先，药物在分子图表示的基础上被表示成一个graph，为了从药物的graph中提取子结构，作者提出一个消息传递网络，其中，边具有可学习的权重，权重值约束在0到1之间。这些权重可以被认为是划分子结构的门限（gates），具有产生灵活尺寸和不规则形状子结构的效果。
其次，两种药物之间的 DDI 预测是基于它们学习到的子结构之间的相互作用分数，每个相互作用分数都使用共同注意机制（co-attention）由可学习的权重加权得到。对于副产物，作者提出的方法可以提示哪些子结构可能是导致 DDI 发生的原因。
最后，作者在两个数据集上评估了方法：1.Drugbank数据集，包含药物1704种，191808个DDI对（DDI pairs），86种反应类型；2.Twosides数据集，645种药物，4649441个DDI对，1317种反应类型。
实验在两种设置下进行，一种是transductive，DDI对的训练和测试集共享相同的药物；另一种是inductive（也称为冷启动），测试集和训练集中的药物是不同的（测试集里的药物不在训练集中出现，训练集中的药物也不在测试集中出现）。Inductive更困难更具挑战性。
两个数据集都被使用到transductive设置中，对于inductive设置，只使用Drugbank进行实验。

方法

方法的整体框架如下图：
fig1
给定一个DDI的元组 $d_{x},r,d_{y})$ ， $d_{x},d_{y}$ 分别用分子图 $G_{x}=(V_{x},E_{x}),G_{y}=(V_{y},E_{y})$ 表示， $r$ 与可学习的矩阵 $M_{r}\in R^{b\times b}$ 建立联系，在子结构被提取后， $G_{x}$ 生成 $V_{x}|$ 个子结构，节点代表每个子结构的中心。 $G_{y}$ 遵循同样的过程。一个交叉的子结构注意力 $\gamma_{ij}$ 被计算，用于表示子结构之间的相关性。每个子结构都经过线性变换，最终的DDI预测为每对药物 $d_{x},d_{y}$ 的子结构之间的相互作用得分之和，每对子结构的相互作用的权重为注意力 $\gamma_{ij}$ 。

问题描述

给一个药物集合 $D$ ，一个反应类型集合 $R$ ，DDI预测任务被看作找一个函数 $f$ 使得： $D\times R\times D\Rightarrow [0,1]$ 换言之，给一个包含两个药物和一个具体反应类型的三元组，我们要预测这个DDI事件发生的概率。我们需要找到函数 $f$ 使得预测结果与数据集 $M=\left\{(d_{x},r,d_{y})_{i}\right\}_{i=1}^{N}\subset D\times R\times D$ 近似。

药物被表示为去氢的无向图 $G = (V, E)$ ，其中 $V$ 为节点集合，表示原子， $E\subset V\times V$ 为边集合，表示原子之间的键。每个节点 $v_{i}$ 都有一个对应的特征 $\textbf{x}_{i}\in R^{d}$ ，每个边 $e_{ij}=(v_{i},v_{j})$ 也对应一个向量 $\textbf{x}_{ij}\in R^{d'}$ ，由于初始阶段，边是无向的，所以 $e_{ij}=e_{ji},\textbf{x}_{ij}=\textbf{x}_{ji}$ 。

门限消息传递网络提取子结构

给一个常规的图，以节点 $v_{i}$ 为中心的子结构的表达可以看作是所有可到达 $v_{i}$ 的节点群的聚合，为了精细表示子结构，我们将图中的边看作门限，即，值在[0,1]的权重。通往节点 $v_{i}$ 的路径上的一个节点 $v_{j}$ 的加权值是连接它到 $v_{i}$ 的路径上的权值的乘积。

我们假设 $v_{j}$ 到 $v_{i}$ 有多条路径，这种情况出现在环状的子图上，我们应该单独考虑每条路径。这里提出的用边值的乘积来衡量节点，最终会产生不同大小和形状的子结构。如果在路径上，有一条边的权重为0，则包含该边的路径权重乘积将为0，代表截断，从而得到不同形状的子结构。

图中的每个节点都可以作为一个子结构的中心，以便从图中提取尽可能多的子结构。这需要将每条边转换成双向边（每个方向都要自己的权重），因为一个节点既可以是目标节点（中心）也可以是源节点。下图是子结构提取的示例。
fig2
以图c为例，为了提取以节点v5（红色）为中心的子结构，生成从end-nodes开始到v5结束的所有路径（绿色），例子中，v5有4个end-nodes（v1，v6，v9，v10），即4条路径，在图d中，v5的向量s5表示为四条路径与节点本身的信息聚合。

现在，我们需要把无向的分子图表示 $G = (V, E)$ 转化为有向图，边 $e_{ij}$ 和边 $e_{ji}$ 成为两条分开的边。为了突出这个特点，我们重命名为 $e_{i\rightarrow j}$ 和 $e_{j\rightarrow i}$ ，每个有向边都分配一个可学习的权重，其值在[0,1]内。

对于一个图，上述的路径生成计算效率比较低，为此，作者提出门控消息传递网络G-MPNN模拟这个过程。MPNN是一种多层空间卷积GNN框架，每一层都包括三部分：消息传递，聚合，更新。 $\textbf{m}_{j\rightarrow i}^{(l)}=M^{(l)}(\textbf{h}_{j}^{(l-1)},\textbf{h}_{i}^{(l-1)},\textbf{q}_{j\rightarrow i}),\forall j:v_{j}\in N(v_{i})$ $\textbf{a}_{i}^{(l)}=A^{(l)}(\left\{\textbf{m}_{j\rightarrow i}^{(l)}\right\}_{j:v_{j}\in N(v_{i})})$ $\textbf{h}_{i}^{(l)}=U^{(l)}(\textbf{h}_{i}^{(l-1)},\textbf{a}_{i}^{(l)})$ 其中， $\textbf{h}_{i}^{(l)}$ 为节点 $v_{i}$ 在第 $l$ 层的特征， $\textbf{q}_{j\rightarrow i}$ 是节点 $v_{j}$ 到 $v_{i}$ 的边特征。简而言之，在每次迭代中，节点会从相邻节点传递消息。这样做的效果是，在迭代GNN第 $l$ 次时，一个节点将被更新的信息包括了在长度为 $l$ 的跳数范围内可到达的所有节点特征。这与子结构提取中沿着路径中节点聚合信息的思想是符合的。图的遍历具有访问节点的冗余（一个节点可以在遍历中出现多次，但在一条路径中最多出现一次，参考上图d），为了更接近图d的路径生成过程，作者使用了directed MPNN，即D-MPNN。为了减少MPNN节点计算的冗余，消息在边之间传递而不是节点之间，D-MPNN包含三个部分： $\ { v i } \textbf{m}_{k\rightarrow j}^{(l)}=M^{(l)}(\textbf{h}_{k},\textbf{h}_{j},\textbf{q}_{k\rightarrow j}^{(l-1)}),\forall k:v_{k}\in N(v_{j})\backslash\left\{v_{i}\right\}$ $\ { v i } ) \textbf{a}_{j\rightarrow i}^{(l)}=A^{(l)}(\left\{\textbf{m}_{k\rightarrow j}^{(l)}\right\}_{k:v_{k}\in N(v_{j})\backslash\left\{v_{i}\right\}})$ $\textbf{q}_{j\rightarrow i}^{(l)}=U^{(l)}(\textbf{q}_{j\rightarrow i}^{(l-1)},\textbf{a}_{j\rightarrow i}^{(l)})$ MPNN和D-MPNN的区别在于前者更新节点特征，后者更新边的特征，比如为了更新边 $e_{j\rightarrow i}$ ，第一个公式从相邻边 $e_{k\rightarrow j}$ ，其中 $\ { v i } k:v_{k}\in N(v_{j})\backslash\left\{v_{i}\right\}$ ， $v_{j}$ 被视为公共节点。在边特征更新后的最后一次迭代 $L$ 之后，节点被表示为所有进入边特征的集合。比如节点 $v_{i}$ 的最终特征 $\textbf{s}_{i}$ 为： $\textbf{s}_{i}=\sum_{j:v_{j}\in N(v_{i})}\textbf{q}_{j\rightarrow i}^{(L)}$ 现在，给出GMPNN的计算步骤，给一个图 $G = (V, E)$ 表示药物：

对节点特征先进行非线性变换获得新的特征表达： $\textbf{h}_{i}=MLP_{init\_n}(\textbf{x}_{i}),\forall v_{i}\in V$ 其中， $\textbf{h}_{i}\in R^{f}$ 是变换后的节点特征。
边的特征同样经过非线性变换处理： $\textbf{h}_{j\rightarrow i}=MLP_{init\_e}(\textbf{x}_{ji}),\forall e_{j\rightarrow i}$ $\textbf{h}_{i\rightarrow j}=MLP_{init\_e}(\textbf{x}_{ij}),\forall e_{i\rightarrow j}$ 其中， $\textbf{h}_{j\rightarrow i},\textbf{h}_{i\rightarrow j}\in R^{m}$ 分别是边 $e_{j\rightarrow i},e_{i\rightarrow j}$ 的新特征，注意，尽管边 $e_{j\rightarrow i},e_{i\rightarrow j}$ 是不同的边，但它们的特征目前是相同的，因为初始无向图限制了 $\textbf{x}_{ji}=\textbf{x}_{ij}$ ，边 $e_{j\rightarrow i}$ 的门限 $w_{j\rightarrow i}\in[0,1]$ 是根据关联节点进行初始化的： $o_{j\rightarrow i}=\frac{1}{c}(\textbf{h}_{j\rightarrow i}^{T}MLP_{w}(\textbf{h}_{j}||\textbf{h}_{i})),w_{j\rightarrow i}=\sigma(o_{j\rightarrow i})$ 其中， $∣ ∣$ 表示拼接， $c$ 是一个常数。
现在，我们有节点特征 $\textbf{h}_{i}$ 和边的权重 $w_{j\rightarrow i}$ ，我们应用D-MPNN机制模拟子结构的路径生成。消息在边之间传递而不是节点之间，边 $e_{j\rightarrow i}$ 的特征表示为： $\textbf{q}_{j\rightarrow i}^{(0)}=w_{j\rightarrow i}\textbf{h}_{j}$ 其中， $\textbf{q}_{j\rightarrow i}^{(0)}\in R^{f}$ ，我们需要与前面提到的 $\textbf{h}_{j\rightarrow i}$ 进行区别， $\textbf{h}_{j\rightarrow i}$ 只是用于计算边的权重，而 $\textbf{q}_{j\rightarrow i}^{(0)}$ 将在消息传递中使用，因为它包含了节点信息和边的权重信息。
应用D-MPNN机制： $\ { v i } \textbf{m}_{k\rightarrow j}^{(l)}=w_{j\rightarrow i}\textbf{q}_{k\rightarrow j}^{(l-1)},\forall k:v_{k}\in N(v_{j})\backslash\left\{v_{i}\right\}$ $\ { v i } m k → j ( l ) \textbf{a}_{j\rightarrow i}^{(l)}=\sum_{k:v_{k}\in N(v_{j})\backslash\left\{v_{i}\right\}}\textbf{m}_{k\rightarrow j}^{(l)}$ $\textbf{q}_{j\rightarrow i}^{(l)}=\textbf{q}_{j\rightarrow i}^{(l-1)}+\textbf{a}_{j\rightarrow i}^{(l)}$ 注意到，边的特征每次都会根据权重进行缩放，这样的效果是实现了节点特征乘以连接它与子结构中心节点的边的权值的乘积。
最后，得到节点 $v_{i}$ 为中心的子结构信息： $\textbf{s}_{i}=f_{sub}(\textbf{h}_{i}+\sum_{j:v_{j}\in N(v_{i})}\textbf{q}_{j\rightarrow i}^{(L)})$ 其中， $f_{sub}$ 是一个非线性函数。

G-MPNN是可以用于inductive设置的，因为分子总是有原子和键的特征表示，即我们总是可以得到节点和边的特征，从而可以使用G-MPNN提取自适应大小的子结构。

DDI预测的过程

给一个DDI元组 $d_{x},r,d_{y})$ ，预测该事件的概率： $P(d_{x},r,d_{y})=\sigma(\sum_{i}^{|V_{x}|}\sum_{j}^{|V_{y}|}\gamma_{ij}(\widehat{\textbf{s}}_{i}^{(x)})^{T}M_{r}\widehat{\textbf{s}}_{j}^{(y)})$ 其中， $\widehat{\textbf{s}}_{i}^{(x)},\widehat{\textbf{s}}_{j}^{(y)}$ 分别是药物 $d_{x}$ 的子结构 $i$ ，和 $d_{y}$ 的子结构 $j$ 经过线性变换后的表达： $\widehat{\textbf{s}}_{i}^{(x)}=W\textbf{s}_{i}^{(x)},\widehat{\textbf{s}}_{j}^{(y)}=W\textbf{s}_{j}^{(y)}$ 其中， $W\in R^{b\times b}$ 是可学习的参数。 $M_{r}\in R^{b\times b}$ 是反应类型 $r$ 的可学习的参数，并且是对角矩阵： $M_{r}=diag(\textbf{m}_{r})$ ， $\textbf{m}_{r}\in R^{b}$ 是反应类型 $r$ 的可学习向量。

交叉的子结构注意力 $\gamma_{ij}$ 为： $\gamma_{ij}=softmax(MLP_{\gamma}(\textbf{s}_{i}^{(x)}||\textbf{s}_{j}^{(y)}))$ 现在，DDI预测被分解为DDI元组的二元预测。DDI数据集 $M$ 中的样本都是正样本，我们还需要构造负样本，通过破坏元组 $d_{x},r,d_{y})$ 即可，比如将 $d_{x}$ 或 $d_{y}$ 替换成别的药物。

通过最小化BCE Loss优化目标，损失函数为： $L=-\frac{1}{|M|}\sum_{i:(d_{x},r,d_{y})_{i}\in M}(log(p_{i})+log(1-p_{i}'))$ 其中， $p_{i},p_{i}'$ 分别为正负样本的预测概率。

结果

直推式学习Transductive设定下的模型比较。下表加粗了每项指标的最优值。论文所提方法对每个指标的改进情况显示在最后一行。
fig3
下图可视化展示亚硝酸戊酯和西地那非这两种药物之间的DDI prediction。 $p = 0.82$ 是预测输出值。灰色填充的两个原子是所关心的子结构的中心点。（红色虚线框中的硝酸基团在这两个药物关联之间起了重要作用，根据文献，这两个药不能同时服用）
fig4
归纳式学习Inductive设定下的模型表现比较。下表加粗了每项指标最优值。
fig5
作者从药物集合 $D$ 中划分药物，随机选取五分之一药物作为 $D_{new}$ ， $D_{new}$ 不参与训练，即对模型来说是陌生的， $M_{s1}$ 表示数据集中的 $d_{x},d_{y}$ 都来自 $D_{new}$ ， $M_{s2}$ 表示数据集中的 $d_{x}$ 来自 $D_{new}$ ， $d_{y}$ 来自 $D_{old}=D-D_{new}$ 。

tzc_fly

关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
3
评论
用于药物反应预测的自适应大小的子结构学习

目录子结构学习的引言相关工作的回顾药物的表示DDI预测方法问题描述门限消息传递网络提取子结构子结构学习的引言药物化学的理论表明，药物是一个简单的实体，其由不同的官能团（或者化学子结构）组成，这些子结构决定了药代动力学特性（生物体如何处理它）和药效学特性（它如何影响生物体），以及最终的交互反应。为此，研究人员提出了基于子结构学习的DDI预测方法。首先，药物在分子图表示的基础上被表示成一个graph，为了从药物的graph中提取子结构，作者提出一个消息传递网络，其中，边具有可学习的权重，权重值约束在0到
复制链接

扫一扫