JTVAE( Junction Tree Variational Autoencoder )

最新推荐文章于 2022-12-08 20:40:43 发布

吊儿郎当的凡

最新推荐文章于 2022-12-08 20:40:43 发布

阅读量1.7k

点赞数 3

分类专栏： RNA结构预测文章标签：深度学习人工智能神经网络生物信息学机器学习

本文链接：https://blog.csdn.net/weixin_43269419/article/details/123995647

版权

RNA结构预测专栏收录该内容

13 篇文章 4 订阅

订阅专栏

Junction Tree Variational Autoencoder for Molecular Graph Generation

Year: 2018
Authors: Wengong Jin, Regina Barzilay, Tommi Jaakkola
Journal Name: ICML

Contributions

使用分子图自动设计分子结构
将整个任务分为编码（以连续方法表示分子）和解码（将连续的表示映射回分子图）

Junction Tree Variational Autoencoder

在这里插入图片描述
分子图和连接树提供了两个表示 $\bm{z} = [\bm{z}_{\mathcal{T}}, \bm{z}_G]$ ，两者由编码器 $q(\bm{z}_{\mathcal{T}} | \mathcal{T})$ 和 $q(\bm{z}_{G} | G)$ 产生。两个解码器 $p(\mathcal{T} | \bm{z}_{\mathcal{T}})$ 和 $\mathcal{T}, \bm{z}_{G})$ 重构分子图。

Junction Tree

已知分子图 $G = (V, E)$ ，连接树为 $\mathcal{T}_G = (\mathcal{V}, \mathcal{E}, \mathcal{X})$ ，其中 $\mathcal{X}$ 为特征字典， $\mathcal{V} = \{ C_1, ..., C_n \}$ 。 $C_i = (V_i, E_i)$ 为 $G$ 的子结构，满足以下限制

$\cup_i V_i = V$ ， $\cup_i E_i = E$
如果 $C_k$ 在从 $C_i$ 到 $C_j$ 的路径上， $V_i \cap V_j \subseteq V_k$

Graph Encoder

每个节点 $v$ 和边缘 $\in E$ 都有相对应的特征向量 $\bm{x}_v$ 和 $\bm{x}_{uv}$ 。定义 $\bm{v}_{uv}$ 为从 $u$ 到 $v$ 的信息
$\bm{v}_{uv}^{(t)} = \tau(W_1^g \bm{x}_u + W_2^g \bm{x}_{uv} + W_3^g \sum_{w \in N(u) \setminus v}\bm{v}_{wu}^{(t-1)})$

其中， $\tau$ 为 RELU ， $\bm{v}_{uv}^{(t)}$ 表示第 $t$ 轮迭代后的信息， $\bm{v}_{uv}^{(0)} = 0$ 。 $T$ 轮迭代后，将信息聚合为每个节点的隐向量
$\bm{h}_u = \tau(U_1^g \bm{x}_u + \sum_{v \in N(u)} U_2^g \bm{v}_{vu}^{(T)})$

最终的图表示为 $\bm{h}_G = \sum_{i} \bm{h}_i / |V|$ 。 $\bm{z}_G$ 从 $\mathcal{N}(\bm{\mu}_G, \bm{\sigma}_G)$ 中采样， $\bm{\mu}_G$ 和 $\bm{\sigma}_G$ 通过两个独立的仿射层根据 $\bm{h}_G$ 计算得出。

Tree Encoder

对于每条边缘 $C_i, C_j)$ ，定义信息向量 $\bm{m}_{ij}$ 和 $\bm{m}_{ji}$ 。
$\bm{m}_{ij} = GRU(\bm{x}_i, \{ \bm{m}_{ki} \}_{k \in N(i) \setminus j})$

GRU 的结构如下所示
$\bm{s}_{ij} = \sum_{k \in N(i) \setminus j} \bm{m}_{ki} \\ \bm{z}_{ij} = \sigma (W^z \bm{x}_i + U^z \bm{s}_{ij} + b^z) \\ \bm{r}_{ki} = \sigma(W^r \bm{x}_i + U^r \bm{m}_{ij} + b^r) \\ \widetilde{\bm{m}}_{ij} = tanh(W \bm{x}_i + U \sum_{k \in N(i) \setminus j} \bm{r}_{ki} \odot \bm{m}_{ki}) \\ \bm{m}_{ij} = (1 - \bm{z}_{ij}) \odot \bm{s}_{ij} + \bm{z}_{ij} \odot \widetilde{\bm{m}}_{ij}$

其中， $\sigma$ 为 sigmoid 函数。信息传递之后，每个节点的隐向量
$\bm{h}_i = \tau(W^o \bm{x}_i + \sum_{k \in N(i)}U^o \bm{m}_{ki})$

采样 $\bm{z}_{\mathcal{T}}$ 的方法和图编码器类似。

Tree Decoder

在这里插入图片描述

解码过程在原分子的基础上，利用树采样继续扩展新的子结构，原分子的所有子结构均为根节点。
定义 $\widetilde{\mathcal{E}}_t$ 为到 $t$ 时刻为止已经采样的边缘， $\bm{h}_{i_t j_t}$ 为采样过程中产生的信息。
$\bm{h}_{i_t j_t} = GRU(\bm{x}_{i_t}, \{ \bm{h}_{k i_t} \}_{(k, i_t) \in \widetilde{\mathcal{E}}_t, k \neq j_t})$

定义 $p_t$ 为当前叶节点是否继续扩展的概率
$p_t = \sigma(u^d · \tau(W_1^d \bm{x}_{i_t} + W_2^d \bm{z}_{\mathcal{T}} + W_3^d \sum_{(k, i_t) \in \widetilde{\mathcal{E}}_t} \bm{h}_{k i_t}))$

定义
$q_j = softmax(U^l \tau(W_1^l \bm{z}_{\mathcal{T}} + W_2^l \bm{h}_{ij}))$

表示扩展节点 $j$ 的特征 $\bm{x}_j$ 在特征字典 $\mathcal{X}$ 中的概率。当 $j$ 为根节点时， $\bm{h}_{ij} = 0$ 。训练时采用 teacher forcing 最小化交叉熵损失
$L_c(\mathcal{T}) = \sum_t L^d(p_t, \hat{p}_t) + \sum_j L^l(q_j, \hat{q}_j)$

Graph Decoder

因为相同的树所重构出的图并不唯一，定义 $\mathcal{G}(\mathcal{T})$ 为树 $\mathcal{T}$ 所能重构的图的集合。
$\hat{G} = \argmax_{G' \in \mathcal{G}(\mathcal{T})} f^a(G')$

其中， $f^a$ 为评分函数。出于效率原因，作者按照树本身的解码顺序，一次扩展一个子结构进行计算。
假设根据树节点 $C_j$ 新扩展的子结构为 $C_i$ ，生成了子图 $G_i$ ，子图所对应的向量表示为 $\bm{h}_{G_i}$ ，评分函数为
$f^a (G_i) = \bm{h}_{G_i} · \bm{z}_G$

定义 $u$ 和 $v$ 为 $G_i$ 中的两个原子。如果 $\in C_i$ ， $\alpha_v = i$ 。如果 $\in C_j \setminus C_i$ ， $\alpha_v = j$ 。设立 $\alpha_v$ 是为了标注原子在树中的位置。仿照图编码器，定义 $\bm{\mu}_{uv}$ 为从 $u$ 到 $v$ 的信息
$\bm{\mu}_{uv}^{(t)} = \tau(W_1^a \bm{x}_u + W_2^a \bm{x}_{uv} + W_3^a \widetilde{\bm{\mu}}_{uv}^{(t-1)}) \\ \widetilde{\bm{\mu}}_{uv}^{(t-1)} = \left\{ \begin{aligned} \sum_{w \in N(u) \setminus v} \bm{\mu}_{wu}^{(t-1)} & , & \alpha_u = \alpha_v, \\ \hat{\bm{m}}_{\alpha_u \alpha_v} + \sum_{w \in N(u) \setminus v} \bm{\mu}_{wu}^{(t-1)} & , & \alpha_u \neq \alpha_v. \end{aligned} \right.$

计算 $\bm{h}_{G_i}$ 的方法与图编码器相同。
学习图解码器参数以最大化在每个树节点处预测地面真实图 G 的正确子图 G i 的对数似然
该过程的损失函数为
$L_g(G) = \sum_i \Big[ f^a(G_i) - log \sum_{G_i' \in \mathcal{G}_i} exp(f^a(G_i')) \Big]$

其中， $i$ 为树的节点， $G_i$ 为正确子图。
以我的理解， $\sum_{G_i' \in \mathcal{G}_i} exp(f^a(G_i'))$ 放大了较大 $f^a(G_i')$ 的影响，减少了较小 $f^a(G_i')$ 的影响。所以，该损失函数倾向于使正确子图的分数无穷大，错误子图的分数为 0 ，但这样的话 $f^a (G_i)$ 直接使用内积计算相似度是否不太合理？

Results

在这里插入图片描述

吊儿郎当的凡

关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
JTVAE( Junction Tree Variational Autoencoder )

Junction Tree Variational Autoencoder for Molecular Graph GenerationYear: 2018Authors: Wengong Jin, Regina Barzilay, Tommi JaakkolaJournal Name: ICMLInnovation
复制链接

扫一扫