项目实训八

qq_51946537

已于 2022-05-09 10:58:19 修改

阅读量211

点赞数

分类专栏：项目实训文章标签： python

于 2022-05-09 10:57:13 首次发布

本文链接：https://blog.csdn.net/qq_51946537/article/details/124659708

版权

项目实训专栏收录该内容

15 篇文章 2 订阅

订阅专栏

本文深入剖析了树形解码器的节点分类和分支预测模块。节点分类模块由两个GRU、注意力机制和分类器构成，用于预测节点类别。分支预测模块则关注节点间的空间关系。解码过程通过GRU和注意力机制获取上下文信息，最终通过最大激活函数和softmax计算节点预测概率。文章还介绍了损失函数和未来编码实现计划。

摘要由CSDN通过智能技术生成

树形解码器的decoder部分

在解码器的每个解码步骤中，树解码器需要预测当前子节点的信息，包括子节点和子节点的分支，节点的分支表示节点与子节点之间的空间关系。我们可以通过节点类别和分支来逐步构建一棵数学树。如下图所示，为了解耦分类和空间关系预测，我们在解码器中设计了两个模块：节点分类模块和分支预测模块。
在这里插入图片描述

节点类模块

节点类模块主要包括两个GRU，一个注意力机制和一个分类器，我们首先使用两个嵌入层去获得父节点 $p_{t}$ 高维的特征向量 $\mathbf{e}_{t}^{\mathrm{p}}$ 和 $\mathbf{e}_{t}^{\mathrm{r}}$ 以及其空间关系 $r_{t}$ 。节点解码器 $\mathbf{s}_{t-1}^{\mathrm{node}}$ 的先前隐藏状态被视为 $\mathbf{GRU}_{1}^{\mathrm{node}}$ 层的先前隐藏状态。父节点的嵌入层 $\mathbf{e}_{t}^{\mathrm{p}}$ 和空间关系节点的嵌入层 $\mathbf{e}_{t}^{\mathrm{r}}$ 一起作为 $\mathbf{GRU}_{1}^{\mathrm{node}}$ 的输入，然后就可以得到 $\mathbf{GRU}_{1}^{\mathrm{node}}$ 的当前隐藏状态 $\widetilde{\mathbf{S}}_{t}^{\text {node }}$ 。
$\mathbf{e}_{t}^{\mathrm{p}}=\operatorname{Emd}_{\text {node }}\left(p_{t}\right)$ $\mathbf{e}_{t}^{\mathrm{r}}=\mathrm{Emd}_{\mathrm{re}}\left(r_{t}\right)$ $\widetilde{\mathbf{s}}_{t}^{\text {node }}=\operatorname{GRU}_{1}^{\text {node }}\left(\left[\mathbf{e}_{t}^{\mathrm{p}}, \mathbf{e}_{t}^{\mathrm{r}}\right], \mathbf{s}_{t-1}^{\text {node }}\right)$
然后，节点注意力机制模块 $f_{\text {att }}^{\text {node }}$ 被用来在特征映射A上的注意可能性 ${\alpha}_{t}^{\text {node }}$ ，通过计算在A上的权重之和来获得节点上下文向量 $\mathbf{c}_{t}^{\text {node }}$ ，这里使用 $\widetilde{\mathbf{S}}_{t}^{\text {node }}$ 作为query并且A作为key和value。
$\boldsymbol{\alpha}_{t}^{\text {node }}=f_{\mathrm{att}}^{\text {node }}\left(\mathbf{A}, \widetilde{\mathbf{s}}_{t}^{\text {node }}\right)$ $\mathbf{c}_{t}^{\text {node }}=\sum \alpha_{t i}^{\text {node }} \mathbf{a}_{i}$
函数 $f_{\text {att }}^{\text {node }}$ 如下：
$\mathbf{F}^{\text {node }}=\mathbf{Q}^{\text {node }} * \sum_{l=1}^{t-1} \boldsymbol{\alpha}_{l}^{\text {node }}$ $e_{t i}^{\text {node }}=V_{\text {node }}^{\mathrm{T}} \tanh \left(\mathbf{W}_{\text {att }}^{\text {node }} \tilde{\mathbf{s}}_{t}^{\text {node }}+\mathbf{U}_{\text {att }}^{\text {node }} \mathbf{a}_{i}+\hat{\mathbf{U}}_{\mathrm{F}}^{\text {node }} \mathbf{f}_{i}^{\text {node }}\right)$ $\alpha_{t i}^{\text {node }}=\frac{\exp \left(e_{t i}^{\text {node }}\right)}{\sum_{k} \exp \left(e_{t k}^{\text {node }}\right)}$
$\alpha_{t i}^{\text {node }}$ 表示第t步的第i个元素的节点的可能性， $e_{t i}^{\text {node }}$ 表示第i步的输出， $\mathbf{f}_{i}^{\mathrm{node}}$ 表示函数 $\mathbf{F}^{\text {node }}$ 的第i个元素，这是以前的注意模块，为了避免过度解析或者解析不足的问题，其余为学习参数。
接着，使用 $\mathbf{c}_{t}^{\text {node }}$ 和 $\widetilde{\mathbf{s}}_{t}^{\text {node }}$ 作为 $\mathbf{GRU}_{2}^{\text {node }}$ 的输入来计算预测模块隐藏状态 $\mathbf{s}_{t}^{\text {node }}$
$\mathbf{s}_{t}^{\text {node }}=\operatorname{GRU}_{2}^{\text {node }}\left(\mathbf{c}_{t}^{\text {node }}, \widetilde{\mathbf{s}}_{t}^{\text {node }}\right)$ 最后通过父节点 $\mathbf{e}_{t}^{\text {p}}$ ，与父节点的关系 $\mathbf{e}_{t}^{\text {r}}$ ，节点的隐藏状态 $\mathbf{s}_{t}^{\text {node }}$ 以及上下文向量 $\mathbf{c}_{t}^{\text {node }}$ 的聚合来计算预测节点 $\mathbf{o}_{t}^{\text {node }}$ 的可能性： $\mathbf{h}_{t}^{\text {node }}=\operatorname{maxout}\left(\mathbf{W}_{1}^{\text {node }}\left[\mathbf{e}_{t}^{\mathrm{p}}, \mathbf{e}_{t}^{\mathrm{r}}, \mathbf{s}_{t}^{\text {node }}, \mathbf{c}_{t}^{\text {node }}\right]\right)$ $\mathbf{o}_{t}^{\text {node }}=\operatorname{softmax}\left(\mathbf{W}_{2}^{\text {node }} \mathbf{h}_{t}^{\text {node }}\right)$ 其中W参数为学习参数。
我们使用cross-entropy函数来计算分类的损失函数 $\mathcal{L}_{\text {node }}=-\sum \log \mathbf{o}_{t}^{\text {node }} \cdot \mathbf{n}_{t}$ $\mathbf{n}_{t}$ 表示第t步节点真实值的独热向量。